Monitoring & Observability

Ein Multi-Agent-System ohne Monitoring ist wie ein Auto ohne Armaturenbrett — Sie wissen nicht, ob es funktioniert, bis es zu spät ist. Observability geht über einfaches Logging hinaus: Sie müssen verstehen, was jeder Agent tut, wie lange er braucht und was er kostet.

Die drei Säulen der Observability

Säule	Was wird erfasst	Tools
Logs	Was ist passiert? (Textuelle Aufzeichnung)	n8n Execution Log, Loki
Metrics	Wie viel? Wie schnell? (Zahlenwerte über Zeit)	Prometheus, Grafana
Traces	Welchen Weg nahm die Anfrage? (End-to-End-Pfad)	OpenTelemetry, Jaeger

Execution Logging in n8n

Structured Logging pro Agent

Implementieren Sie ein einheitliches Log-Format für alle Agents:

{
  "timestamp": "2026-02-20T14:30:00Z",
  "pipeline_id": "abc-123",
  "agent": "researcher",
  "action": "execute",
  "status": "completed",
  "duration_ms": 4523,
  "input_tokens": 250,
  "output_tokens": 1200,
  "model": "gpt-4o",
  "cost_usd": 0.0185,
  "metadata": { "sources_found": 5, "confidence": 87 }
}

Log-Levels für Multi-Agent-Systeme

Level	Verwendung	Beispiel
DEBUG	Agent-Input/Output (nur Entwicklung)	Vollständiger Prompt und Response
INFO	Erfolgreiche Agent-Ausführung	„Researcher completed in 4.5s"
WARN	Retry oder Fallback ausgelöst	„Writer retry 2/3 after timeout"
ERROR	Agent-Fehler, DLQ-Eintrag	„Reviewer failed: invalid JSON"
FATAL	Pipeline abgebrochen	„Circuit breaker open for all agents"

Performance Metrics

Key Performance Indicators (KPIs)

Metrik	Beschreibung	Zielwert
Agent-Latenz (p50/p95/p99)	Wie lange braucht ein Agent?	p95 < 10s
Pipeline-Latenz	End-to-End-Dauer der gesamten Pipeline	< 30s
Erfolgsrate	Anteil erfolgreicher Executions	> 99 %
Retry-Rate	Wie oft werden Retries benötigt?	< 5 %
Fallback-Rate	Wie oft springt der Fallback ein?	< 1 %
Token-Verbrauch	Input + Output Tokens pro Pipeline	Budget-abhängig

Prometheus Metrics (Beispiel)

# Agent-Latenz
agent_execution_duration_seconds{agent="researcher", status="success"} 4.523

# Token-Verbrauch
agent_tokens_total{agent="writer", type="input"} 250
agent_tokens_total{agent="writer", type="output"} 1200

# Fehler-Zähler
agent_errors_total{agent="reviewer", error_type="timeout"} 3

Cost Tracking pro Agent

Kosten-Transparenz ist bei Multi-Agent-Systemen kritisch — jeder Agent verbraucht Tokens.

Cost Dashboard

Agent	Modell	Avg. Tokens/Run	Kosten/Run	Runs/Tag	Kosten/Tag
Researcher	GPT-4o	1.500	$0.023	500	$11.50
Writer	GPT-4o	2.000	$0.030	500	$15.00
Reviewer	GPT-4o-mini	800	$0.002	500	$1.00
Gesamt					$27.50

Kosten-Optimierung

Modell-Tiering: Einfache Agents nutzen günstigere Modelle (GPT-4o-mini, Claude Haiku)
Caching: Identische Anfragen zwischenspeichern (Redis, 5 Min TTL)
Token-Limits: Maximale Token pro Agent begrenzen
Batch-Processing: Anfragen bündeln statt einzeln verarbeiten

OpenTelemetry Integration

Für End-to-End-Tracing über alle Agents hinweg:

Pipeline Start
  └── Orchestrator (span: 28.5s)
       ├── Researcher Agent (span: 4.5s)
       │    ├── LLM Call (span: 3.8s) [model: gpt-4o, tokens: 1500]
       │    └── DB Write (span: 0.2s)
       ├── Writer Agent (span: 8.2s)
       │    ├── DB Read (span: 0.1s)
       │    ├── LLM Call (span: 7.5s) [model: gpt-4o, tokens: 2000]
       │    └── DB Write (span: 0.3s)
       └── Reviewer Agent (span: 3.1s)
            ├── DB Read (span: 0.1s)
            └── LLM Call (span: 2.8s) [model: gpt-4o-mini, tokens: 800]

Praxis-Tipp: Beginnen Sie mit drei Metriken: Agent-Latenz, Erfolgsrate und Kosten pro Pipeline. Diese drei allein decken 80 % der Probleme auf. Fügen Sie OpenTelemetry-Tracing hinzu, wenn Sie mehr als 5 Agents haben und Debugging über die Pipeline hinweg nötig wird.