Lektion 5 von 6·10 Min Lesezeit

Incident Response & Rollback

Wenn ein AI Agent in Production einen kritischen Fehler macht, zählt jede Sekunde. OpenClaw bietet automatisierte Incident-Detection, standardisierte Shutdown-Prozeduren und sichere Rollback-Strategien.

Automatisierte Incident-Detection

OpenClaw erkennt Incidents automatisch anhand mehrerer Signale:

Incident-Typen

SeverityTypBeispielAuto-Aktion
P0 — CriticalAgent-AusfallAgent antwortet nicht mehrAuto-Shutdown
P0 — CriticalDaten-LeakPII in öffentlicher AntwortSofort-Block
P1 — HighAlignment-CrashScore fällt unter 0.5Auto-Pause
P1 — HighKosten-Explosion10x normaler VerbrauchRate Limiting
P2 — MediumQualitäts-DropError Rate über 10%Alert + Investigation
P3 — LowPerformance-DegradationLatenz 2x über NormalAlert

Detection Rules

# incident-detection.yml
detection:
  rules:
    - name: mass-hallucination
      condition: hallucination_rate > 15% over 15m
      severity: P1
      auto_action: pause_agent
      description: "Ungewöhnlich hohe Halluzinationsrate"

    - name: loop-detection
      condition: same_tool_call > 10 within single_trace
      severity: P1
      auto_action: kill_trace
      description: "Agent in Endlosschleife"

    - name: unauthorized-data-access
      condition: data_access outside_policy_boundary
      severity: P0
      auto_action: shutdown_agent
      description: "Datenzugriff außerhalb der Policy"

    - name: cascading-failure
      condition: error_count > 3 agents within 5m
      severity: P0
      auto_action: system_wide_pause
      description: "Kaskadierende Fehler über mehrere Agents"

Agent-Shutdown-Prozeduren

Graceful Shutdown

Graceful Shutdown: support-agent-v3
────────────────────────────────────
1. ✅ Neue Anfragen werden abgelehnt (Redirect to fallback)
2. ✅ Laufende Interaktionen werden abgeschlossen (max. 60s)
3. ✅ Offene Tool-Calls werden beendet
4. ✅ State wird persistiert (für spätere Analyse)
5. ✅ Shutdown-Event geloggt
6. ✅ Stakeholder benachrichtigt
Dauer: ~45 Sekunden

Emergency Shutdown (Kill Switch)

Emergency Shutdown: support-agent-v3
──────────────────────────────────────
1. ✅ Sofortiger Abbruch ALLER Interaktionen
2. ✅ Alle API-Verbindungen getrennt
3. ✅ Fallback-Nachricht an alle aktiven Nutzer
4. ✅ Emergency-Event geloggt
5. ✅ P0-Alert an On-Call + Management
Dauer: <5 Sekunden

Rollback-Strategien

Prompt Rollback

# Aktuelle Prompt-Version anzeigen
openclaw agent prompt-history support-agent-v3

# Rollback auf vorherige Version
openclaw agent rollback support-agent-v3 --to-version v3.0

# Rollback verifizieren
openclaw test run --suite support-agent-regression --quick

Configuration Rollback

OpenClaw speichert jeden Konfigurationszustand als Snapshot:

ZeitpunktVersionÄnderungScore
2026-02-18 14:00v3.1.4Temperature: 0.7 → 0.30.91
2026-02-17 10:00v3.1.3New tool: order_lookup0.93
2026-02-15 16:00v3.1.2Prompt update0.89
2026-02-10 09:00v3.1.1Model: gpt-4o-mini → gpt-4o0.94
# Rollback auf einen bestimmten Snapshot
openclaw agent rollback support-agent-v3 --to-snapshot 2026-02-17T10:00

Multi-Agent Rollback

Bei systemweiten Problemen kann OpenClaw alle Agents gleichzeitig zurückrollen:

# Systemweiter Rollback auf letzten stabilen Zustand
openclaw system rollback --to-last-stable

# Rollback mit automatischen Regression-Tests
openclaw system rollback --to-last-stable --verify

Post-Mortem Workflows

Automatisierte Post-Mortem-Erstellung

Nach jedem P0/P1-Incident generiert OpenClaw ein Post-Mortem-Template:

Post-Mortem: PII-Leak im Support Agent
═══════════════════════════════════════
Datum:         2026-02-18
Severity:      P0 — Critical
Duration:      12 Minuten (14:23 – 14:35)
Impact:        3 Kundeninteraktionen betroffen
Detected by:   OpenClaw PII-Scanner (automatisch)
Resolved by:   Auto-Shutdown + Prompt-Rollback

Timeline:
  14:20  Prompt-Update v3.1.4 deployed
  14:23  Erster Trace mit PII in Output
  14:24  OpenClaw PII-Alert ausgelöst
  14:25  Auto-Shutdown initiiert
  14:27  On-Call Engineer benachrichtigt
  14:30  Root Cause identifiziert (Prompt-Regression)
  14:33  Rollback auf v3.1.3 durchgeführt
  14:35  Agent wieder online, Tests bestanden

Root Cause:
  Prompt-Update v3.1.4 entfernte versehentlich die
  Anweisung zur PII-Vermeidung in Antworten.

Action Items:
  ☐ Prompt-Review-Prozess einführen (4-Augen-Prinzip)
  ☐ PII-Regression-Test zur Test-Suite hinzufügen
  ☐ Pre-Deployment-Check für PII-Regeln implementieren

Merke: Ein guter Incident-Response-Plan wird vor dem Incident erstellt — nicht währenddessen. Konfigurieren Sie Shutdown-Prozeduren und Rollback-Strategien heute, damit Sie morgen handlungsfähig sind.