Lektion 4 von 6·9 Min Lesezeit

Metriken & Alerting

Rohdaten allein helfen nicht — Sie brauchen actionable Metriken und intelligentes Alerting, das Sie benachrichtigt, bevor aus einem Trend ein Problem wird. OpenClaw bietet dafür ein vierstufiges System.

Die vier Kern-Metriken für AI Agents

1. Latency (Antwortzeit)

  • P50 / P95 / P99 — Percentil-basierte Latenz pro Agent
  • Time-to-First-Token — Wie schnell reagiert der Agent?
  • End-to-End-Latency — Gesamtdauer inkl. Tool-Calls und Retrieval

2. Token Usage (Verbrauch)

  • Input Tokens — Prompt-Größe pro Request
  • Output Tokens — Antwortlänge pro Request
  • Context Window Utilization — Wie voll ist das Context-Fenster?
  • Cost per Interaction — Kosten pro Agent-Interaktion in EUR

3. Error Rate (Fehlerrate)

  • LLM Errors — Rate Limits, Timeouts, API-Fehler
  • Agent Errors — Falsche Tool-Aufrufe, Loop-Detection, Stuck States
  • Guardrail Violations — Vom Guardrail-System abgefangene Ausgaben
  • Hallucination Rate — Durch Fakten-Checks erkannte Halluzinationen

4. Quality Score

  • User Satisfaction — Feedback-basiert (Thumbs Up/Down, NPS)
  • Task Completion Rate — Erfolgreich abgeschlossene Aufgaben
  • Alignment-Score — Übereinstimmung mit definierten Richtlinien

Threshold Alerts konfigurieren

# openclaw-alerts.yml
alerts:
  - name: high-latency
    metric: p95_latency
    threshold: 5000ms
    window: 5m
    severity: warning
    channels: [slack, email]

  - name: error-spike
    metric: error_rate
    threshold: 5%
    window: 10m
    severity: critical
    channels: [slack, pagerduty]

  - name: cost-overrun
    metric: daily_cost
    threshold: 500 EUR
    window: 24h
    severity: warning
    channels: [email]

  - name: alignment-drift
    metric: alignment_score
    threshold: "<0.85"
    window: 1h
    severity: critical
    channels: [slack, pagerduty, email]

Notification Channels

ChannelUse CaseLatenz
SlackTeam-BenachrichtigungenSekunden
EmailManagement-Reports, SummariesMinuten
PagerDutyCritical Alerts, On-CallSekunden
WebhookCustom-IntegrationenSekunden
Microsoft TeamsEnterprise-UmgebungenSekunden

Custom Metrics definieren

Über die SDK können Sie eigene Metriken tracken:

oc.metric("customer_sentiment", value=0.82, tags={"agent": "support-v2"})
oc.metric("retrieval_relevance", value=0.91, tags={"index": "knowledge-base"})
oc.metric("compliance_check_passed", value=1, tags={"check": "pii-scan"})

Alert-Eskalation

OpenClaw unterstützt mehrstufige Eskalation:

  1. Warning — Slack-Nachricht an das Team (5 Minuten)
  2. Critical — PagerDuty + Slack + Email (sofort)
  3. Emergency — Auto-Shutdown des betroffenen Agents + Eskalation an Management

Best Practice: Beginnen Sie mit lockeren Thresholds und verschärfen Sie diese schrittweise. Zu viele Alerts führen zu Alert Fatigue — dann werden auch kritische Warnungen ignoriert.