Monitoring und Observability

AI-Systeme in Produktion sind Black Boxes, wenn Sie sie nicht beobachten. Im Gegensatz zu klassischer Software können AI-Modelle leise degradieren — ohne einen einzigen Fehler zu werfen. Monitoring ist Ihre Versicherung.

Die drei Säulen der Observability

1. Metriken (Was passiert?)

Quantitative Daten über das Systemverhalten:

Infrastruktur-Metriken:

GPU-Auslastung (Ziel: 70–85 %)
Speicherverbrauch (HBM und RAM)
Netzwerk-Throughput und Latenz
Request-Queue-Länge

AI-spezifische Metriken:

Latenz (P50/P95/P99): Wie schnell antwortet das Modell? (Ziel: P95 < 2s)
Tokens pro Sekunde: Durchsatz des Modells
Error Rate: Fehlgeschlagene Anfragen (Ziel: < 0,1 %)
Cost per Request: Was kostet eine einzelne Anfrage?

Qualitäts-Metriken:

User Feedback Score: Daumen hoch/runter pro Antwort
Hallucination Rate: Wie oft erfindet das Modell Fakten? (manuell samplen)
Task Completion Rate: Wie oft löst die AI die Aufgabe des Nutzers?

2. Logging (Was ist passiert?)

Strukturierte Logs für Debugging und Audit:

Jede AI-Anfrage loggen:

Timestamp, User-ID, Session-ID
Input-Prompt (anonymisiert, wenn PII)
Modell-Name und -Version
Output, Token-Count, Latenz
Kosten pro Anfrage

Log-Levels:

INFO: Jede erfolgreiche Anfrage
WARN: Langsame Anfragen (> P95), hohe Token-Counts
ERROR: Fehlgeschlagene Anfragen, Timeout, Rate-Limit-Hits

3. Alerting (Wann reagieren?)

Automatische Benachrichtigungen bei Anomalien:

Critical Alerts (sofort reagieren):

Error Rate > 5 % über 5 Minuten
Latenz P95 > 10 Sekunden
GPU-Auslastung > 95 % über 10 Minuten
Kosten > 150 % des Tagesbudgets

Warning Alerts (innerhalb 1h prüfen):

Latenz-Anstieg > 50 % gegenüber Baseline
User-Feedback-Score sinkt um 20 %
Ungewöhnlich hoher Token-Verbrauch

Dashboard-Empfehlung

Ein gutes AI-Dashboard zeigt auf einen Blick:

Request-Volumen (Trend + aktuelle Rate)
Latenz-Verteilung (Histogramm P50/P95/P99)
Fehlerrate (Time Series, letzte 24h)
Kosten (kumuliert heute, Prognose Monatsende)
Modell-Verteilung (welches Modell wie oft genutzt)

Tools: Grafana + Prometheus (Open Source), Datadog (Enterprise), Langfuse (AI-spezifisch, Open Source).

Goldene Regel: Was Sie nicht messen, können Sie nicht verbessern. Starten Sie mit 5 Metriken und erweitern Sie schrittweise.