Wenn ein AI Agent in Production einen kritischen Fehler macht, zählt jede Sekunde. OpenClaw bietet automatisierte Incident-Detection, standardisierte Shutdown-Prozeduren und sichere Rollback-Strategien.
OpenClaw erkennt Incidents automatisch anhand mehrerer Signale:
| Severity | Typ | Beispiel | Auto-Aktion |
|---|---|---|---|
| P0 — Critical | Agent-Ausfall | Agent antwortet nicht mehr | Auto-Shutdown |
| P0 — Critical | Daten-Leak | PII in öffentlicher Antwort | Sofort-Block |
| P1 — High | Alignment-Crash | Score fällt unter 0.5 | Auto-Pause |
| P1 — High | Kosten-Explosion | 10x normaler Verbrauch | Rate Limiting |
| P2 — Medium | Qualitäts-Drop | Error Rate über 10% | Alert + Investigation |
| P3 — Low | Performance-Degradation | Latenz 2x über Normal | Alert |
# incident-detection.yml
detection:
rules:
- name: mass-hallucination
condition: hallucination_rate > 15% over 15m
severity: P1
auto_action: pause_agent
description: "Ungewöhnlich hohe Halluzinationsrate"
- name: loop-detection
condition: same_tool_call > 10 within single_trace
severity: P1
auto_action: kill_trace
description: "Agent in Endlosschleife"
- name: unauthorized-data-access
condition: data_access outside_policy_boundary
severity: P0
auto_action: shutdown_agent
description: "Datenzugriff außerhalb der Policy"
- name: cascading-failure
condition: error_count > 3 agents within 5m
severity: P0
auto_action: system_wide_pause
description: "Kaskadierende Fehler über mehrere Agents"
Graceful Shutdown: support-agent-v3
────────────────────────────────────
1. ✅ Neue Anfragen werden abgelehnt (Redirect to fallback)
2. ✅ Laufende Interaktionen werden abgeschlossen (max. 60s)
3. ✅ Offene Tool-Calls werden beendet
4. ✅ State wird persistiert (für spätere Analyse)
5. ✅ Shutdown-Event geloggt
6. ✅ Stakeholder benachrichtigt
Dauer: ~45 Sekunden
Emergency Shutdown: support-agent-v3
──────────────────────────────────────
1. ✅ Sofortiger Abbruch ALLER Interaktionen
2. ✅ Alle API-Verbindungen getrennt
3. ✅ Fallback-Nachricht an alle aktiven Nutzer
4. ✅ Emergency-Event geloggt
5. ✅ P0-Alert an On-Call + Management
Dauer: <5 Sekunden
# Aktuelle Prompt-Version anzeigen
openclaw agent prompt-history support-agent-v3
# Rollback auf vorherige Version
openclaw agent rollback support-agent-v3 --to-version v3.0
# Rollback verifizieren
openclaw test run --suite support-agent-regression --quick
OpenClaw speichert jeden Konfigurationszustand als Snapshot:
| Zeitpunkt | Version | Änderung | Score |
|---|---|---|---|
| 2026-02-18 14:00 | v3.1.4 | Temperature: 0.7 → 0.3 | 0.91 |
| 2026-02-17 10:00 | v3.1.3 | New tool: order_lookup | 0.93 |
| 2026-02-15 16:00 | v3.1.2 | Prompt update | 0.89 |
| 2026-02-10 09:00 | v3.1.1 | Model: gpt-4o-mini → gpt-4o | 0.94 |
# Rollback auf einen bestimmten Snapshot
openclaw agent rollback support-agent-v3 --to-snapshot 2026-02-17T10:00
Bei systemweiten Problemen kann OpenClaw alle Agents gleichzeitig zurückrollen:
# Systemweiter Rollback auf letzten stabilen Zustand
openclaw system rollback --to-last-stable
# Rollback mit automatischen Regression-Tests
openclaw system rollback --to-last-stable --verify
Nach jedem P0/P1-Incident generiert OpenClaw ein Post-Mortem-Template:
Post-Mortem: PII-Leak im Support Agent
═══════════════════════════════════════
Datum: 2026-02-18
Severity: P0 — Critical
Duration: 12 Minuten (14:23 – 14:35)
Impact: 3 Kundeninteraktionen betroffen
Detected by: OpenClaw PII-Scanner (automatisch)
Resolved by: Auto-Shutdown + Prompt-Rollback
Timeline:
14:20 Prompt-Update v3.1.4 deployed
14:23 Erster Trace mit PII in Output
14:24 OpenClaw PII-Alert ausgelöst
14:25 Auto-Shutdown initiiert
14:27 On-Call Engineer benachrichtigt
14:30 Root Cause identifiziert (Prompt-Regression)
14:33 Rollback auf v3.1.3 durchgeführt
14:35 Agent wieder online, Tests bestanden
Root Cause:
Prompt-Update v3.1.4 entfernte versehentlich die
Anweisung zur PII-Vermeidung in Antworten.
Action Items:
☐ Prompt-Review-Prozess einführen (4-Augen-Prinzip)
☐ PII-Regression-Test zur Test-Suite hinzufügen
☐ Pre-Deployment-Check für PII-Regeln implementieren
Merke: Ein guter Incident-Response-Plan wird vor dem Incident erstellt — nicht währenddessen. Konfigurieren Sie Shutdown-Prozeduren und Rollback-Strategien heute, damit Sie morgen handlungsfähig sind.