LangSmith & Observability

Sie können keinen Production-Agent betreiben, den Sie nicht verstehen. LangSmith ist LangChains Plattform für Tracing, Evaluation und Debugging von LLM-Anwendungen. Observability ist kein Nice-to-Have — es ist Voraussetzung für Production.

Tracing

Jeder LangChain-Run wird automatisch getraced, wenn LangSmith konfiguriert ist:

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=ls_...
export LANGCHAIN_PROJECT=my-agent

Was wird getraced?

Element	Details
LLM Calls	Input, Output, Token-Usage, Latenz, Modell
Tool Calls	Welches Tool, welche Parameter, Ergebnis
Chain Steps	Jeder Schritt einer Chain mit Input/Output
Retriever	Queries, gefundene Dokumente, Relevanz-Scores
Errors	Stacktraces, Retry-Versuche, Fallbacks

Trace-Hierarchie

Run: "Customer Support Agent"
├── Chain: "rag_chain"
│   ├── Retriever: "vector_search" (3 Dokumente, 120ms)
│   ├── LLM: "claude-sonnet" (450 Tokens, 890ms)
│   └── Parser: "json_output" (2ms)
├── Tool: "create_ticket" (Success, 340ms)
└── LLM: "claude-sonnet" (Final Response, 230 Tokens)

Evaluation

LangSmith ermöglicht systematische Evaluation Ihrer Chains:

Datasets erstellen

from langsmith import Client

client = Client()
dataset = client.create_dataset("customer-queries")
client.create_examples(
    inputs=[{"query": "Wo ist meine Bestellung?"}],
    outputs=[{"expected": "Bestellstatus mit Tracking-Link"}],
    dataset_id=dataset.id
)

Evaluatoren definieren

from langsmith.evaluation import evaluate

results = evaluate(
    my_chain.invoke,
    data="customer-queries",
    evaluators=[
        correctness_evaluator,
        relevance_evaluator,
        helpfulness_evaluator
    ]
)

Prompt Versioning

LangSmith Hub ermöglicht zentrale Prompt-Verwaltung:

Versionierung: Jede Prompt-Änderung wird versioniert
A/B-Testing: Verschiedene Prompt-Versionen gegeneinander testen
Rollback: Sofortiges Zurücksetzen auf eine frühere Version
Sharing: Prompts im Team teilen und kollaborieren

Regression Testing

Automatisierte Tests bei Prompt- oder Code-Änderungen:

Baseline erstellen: Aktuelle Performance auf einem Dataset messen
Änderung durchführen: Prompt, Modell oder Chain anpassen
Regression-Test: Gleichen Dataset erneut auswerten
Vergleich: LangSmith zeigt Verbesserungen und Verschlechterungen

Praxis-Tipp: Aktivieren Sie Tracing ab Tag 1. Die Kosten sind minimal, aber ohne Traces debuggen Sie blind. Erstellen Sie ein Test-Dataset mit mindestens 50 realen Nutzerfragen — das ist Ihr Goldstandard für Evaluationen.