Ein Multi-Agent-System ohne Monitoring ist wie ein Auto ohne Armaturenbrett — Sie wissen nicht, ob es funktioniert, bis es zu spät ist. Observability geht über einfaches Logging hinaus: Sie müssen verstehen, was jeder Agent tut, wie lange er braucht und was er kostet.
| Säule | Was wird erfasst | Tools |
|---|---|---|
| Logs | Was ist passiert? (Textuelle Aufzeichnung) | n8n Execution Log, Loki |
| Metrics | Wie viel? Wie schnell? (Zahlenwerte über Zeit) | Prometheus, Grafana |
| Traces | Welchen Weg nahm die Anfrage? (End-to-End-Pfad) | OpenTelemetry, Jaeger |
Implementieren Sie ein einheitliches Log-Format für alle Agents:
{
"timestamp": "2026-02-20T14:30:00Z",
"pipeline_id": "abc-123",
"agent": "researcher",
"action": "execute",
"status": "completed",
"duration_ms": 4523,
"input_tokens": 250,
"output_tokens": 1200,
"model": "gpt-4o",
"cost_usd": 0.0185,
"metadata": { "sources_found": 5, "confidence": 87 }
}
| Level | Verwendung | Beispiel |
|---|---|---|
| DEBUG | Agent-Input/Output (nur Entwicklung) | Vollständiger Prompt und Response |
| INFO | Erfolgreiche Agent-Ausführung | „Researcher completed in 4.5s" |
| WARN | Retry oder Fallback ausgelöst | „Writer retry 2/3 after timeout" |
| ERROR | Agent-Fehler, DLQ-Eintrag | „Reviewer failed: invalid JSON" |
| FATAL | Pipeline abgebrochen | „Circuit breaker open for all agents" |
| Metrik | Beschreibung | Zielwert |
|---|---|---|
| Agent-Latenz (p50/p95/p99) | Wie lange braucht ein Agent? | p95 < 10s |
| Pipeline-Latenz | End-to-End-Dauer der gesamten Pipeline | < 30s |
| Erfolgsrate | Anteil erfolgreicher Executions | > 99 % |
| Retry-Rate | Wie oft werden Retries benötigt? | < 5 % |
| Fallback-Rate | Wie oft springt der Fallback ein? | < 1 % |
| Token-Verbrauch | Input + Output Tokens pro Pipeline | Budget-abhängig |
# Agent-Latenz
agent_execution_duration_seconds{agent="researcher", status="success"} 4.523
# Token-Verbrauch
agent_tokens_total{agent="writer", type="input"} 250
agent_tokens_total{agent="writer", type="output"} 1200
# Fehler-Zähler
agent_errors_total{agent="reviewer", error_type="timeout"} 3
Kosten-Transparenz ist bei Multi-Agent-Systemen kritisch — jeder Agent verbraucht Tokens.
| Agent | Modell | Avg. Tokens/Run | Kosten/Run | Runs/Tag | Kosten/Tag |
|---|---|---|---|---|---|
| Researcher | GPT-4o | 1.500 | $0.023 | 500 | $11.50 |
| Writer | GPT-4o | 2.000 | $0.030 | 500 | $15.00 |
| Reviewer | GPT-4o-mini | 800 | $0.002 | 500 | $1.00 |
| Gesamt | $27.50 |
Für End-to-End-Tracing über alle Agents hinweg:
Pipeline Start
└── Orchestrator (span: 28.5s)
├── Researcher Agent (span: 4.5s)
│ ├── LLM Call (span: 3.8s) [model: gpt-4o, tokens: 1500]
│ └── DB Write (span: 0.2s)
├── Writer Agent (span: 8.2s)
│ ├── DB Read (span: 0.1s)
│ ├── LLM Call (span: 7.5s) [model: gpt-4o, tokens: 2000]
│ └── DB Write (span: 0.3s)
└── Reviewer Agent (span: 3.1s)
├── DB Read (span: 0.1s)
└── LLM Call (span: 2.8s) [model: gpt-4o-mini, tokens: 800]
Praxis-Tipp: Beginnen Sie mit drei Metriken: Agent-Latenz, Erfolgsrate und Kosten pro Pipeline. Diese drei allein decken 80 % der Probleme auf. Fügen Sie OpenTelemetry-Tracing hinzu, wenn Sie mehr als 5 Agents haben und Debugging über die Pipeline hinweg nötig wird.