Lektion 5 von 6·10 Min Lesezeit

LangSmith & Observability

Sie können keinen Production-Agent betreiben, den Sie nicht verstehen. LangSmith ist LangChains Plattform für Tracing, Evaluation und Debugging von LLM-Anwendungen. Observability ist kein Nice-to-Have — es ist Voraussetzung für Production.

Tracing

Jeder LangChain-Run wird automatisch getraced, wenn LangSmith konfiguriert ist:

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=ls_...
export LANGCHAIN_PROJECT=my-agent

Was wird getraced?

ElementDetails
LLM CallsInput, Output, Token-Usage, Latenz, Modell
Tool CallsWelches Tool, welche Parameter, Ergebnis
Chain StepsJeder Schritt einer Chain mit Input/Output
RetrieverQueries, gefundene Dokumente, Relevanz-Scores
ErrorsStacktraces, Retry-Versuche, Fallbacks

Trace-Hierarchie

Run: "Customer Support Agent"
├── Chain: "rag_chain"
│   ├── Retriever: "vector_search" (3 Dokumente, 120ms)
│   ├── LLM: "claude-sonnet" (450 Tokens, 890ms)
│   └── Parser: "json_output" (2ms)
├── Tool: "create_ticket" (Success, 340ms)
└── LLM: "claude-sonnet" (Final Response, 230 Tokens)

Evaluation

LangSmith ermöglicht systematische Evaluation Ihrer Chains:

Datasets erstellen

from langsmith import Client

client = Client()
dataset = client.create_dataset("customer-queries")
client.create_examples(
    inputs=[{"query": "Wo ist meine Bestellung?"}],
    outputs=[{"expected": "Bestellstatus mit Tracking-Link"}],
    dataset_id=dataset.id
)

Evaluatoren definieren

from langsmith.evaluation import evaluate

results = evaluate(
    my_chain.invoke,
    data="customer-queries",
    evaluators=[
        correctness_evaluator,
        relevance_evaluator,
        helpfulness_evaluator
    ]
)

Prompt Versioning

LangSmith Hub ermöglicht zentrale Prompt-Verwaltung:

  • Versionierung: Jede Prompt-Änderung wird versioniert
  • A/B-Testing: Verschiedene Prompt-Versionen gegeneinander testen
  • Rollback: Sofortiges Zurücksetzen auf eine frühere Version
  • Sharing: Prompts im Team teilen und kollaborieren

Regression Testing

Automatisierte Tests bei Prompt- oder Code-Änderungen:

  1. Baseline erstellen: Aktuelle Performance auf einem Dataset messen
  2. Änderung durchführen: Prompt, Modell oder Chain anpassen
  3. Regression-Test: Gleichen Dataset erneut auswerten
  4. Vergleich: LangSmith zeigt Verbesserungen und Verschlechterungen

Praxis-Tipp: Aktivieren Sie Tracing ab Tag 1. Die Kosten sind minimal, aber ohne Traces debuggen Sie blind. Erstellen Sie ein Test-Dataset mit mindestens 50 realen Nutzerfragen — das ist Ihr Goldstandard für Evaluationen.