Monitoring und Observability
AI-Systeme in Produktion sind Black Boxes, wenn Sie sie nicht beobachten. Im Gegensatz zu klassischer Software können AI-Modelle leise degradieren — ohne einen einzigen Fehler zu werfen. Monitoring ist Ihre Versicherung.
Die drei Säulen der Observability
1. Metriken (Was passiert?)
Quantitative Daten über das Systemverhalten:
Infrastruktur-Metriken:
- GPU-Auslastung (Ziel: 70–85 %)
- Speicherverbrauch (HBM und RAM)
- Netzwerk-Throughput und Latenz
- Request-Queue-Länge
AI-spezifische Metriken:
- Latenz (P50/P95/P99): Wie schnell antwortet das Modell? (Ziel: P95 < 2s)
- Tokens pro Sekunde: Durchsatz des Modells
- Error Rate: Fehlgeschlagene Anfragen (Ziel: < 0,1 %)
- Cost per Request: Was kostet eine einzelne Anfrage?
Qualitäts-Metriken:
- User Feedback Score: Daumen hoch/runter pro Antwort
- Hallucination Rate: Wie oft erfindet das Modell Fakten? (manuell samplen)
- Task Completion Rate: Wie oft löst die AI die Aufgabe des Nutzers?
2. Logging (Was ist passiert?)
Strukturierte Logs für Debugging und Audit:
Jede AI-Anfrage loggen:
- Timestamp, User-ID, Session-ID
- Input-Prompt (anonymisiert, wenn PII)
- Modell-Name und -Version
- Output, Token-Count, Latenz
- Kosten pro Anfrage
Log-Levels:
- INFO: Jede erfolgreiche Anfrage
- WARN: Langsame Anfragen (> P95), hohe Token-Counts
- ERROR: Fehlgeschlagene Anfragen, Timeout, Rate-Limit-Hits
3. Alerting (Wann reagieren?)
Automatische Benachrichtigungen bei Anomalien:
Critical Alerts (sofort reagieren):
- Error Rate > 5 % über 5 Minuten
- Latenz P95 > 10 Sekunden
- GPU-Auslastung > 95 % über 10 Minuten
- Kosten > 150 % des Tagesbudgets
Warning Alerts (innerhalb 1h prüfen):
- Latenz-Anstieg > 50 % gegenüber Baseline
- User-Feedback-Score sinkt um 20 %
- Ungewöhnlich hoher Token-Verbrauch
Dashboard-Empfehlung
Ein gutes AI-Dashboard zeigt auf einen Blick:
- Request-Volumen (Trend + aktuelle Rate)
- Latenz-Verteilung (Histogramm P50/P95/P99)
- Fehlerrate (Time Series, letzte 24h)
- Kosten (kumuliert heute, Prognose Monatsende)
- Modell-Verteilung (welches Modell wie oft genutzt)
Tools: Grafana + Prometheus (Open Source), Datadog (Enterprise), Langfuse (AI-spezifisch, Open Source).
Goldene Regel: Was Sie nicht messen, können Sie nicht verbessern. Starten Sie mit 5 Metriken und erweitern Sie schrittweise.