Wie stellen Sie sicher, dass Ihre AI Agents das tun, was sie sollen — und nicht mehr? OpenClaw berechnet für jeden Agent einen Alignment-Score und bietet konfigurierbare Guardrails, die unerwünschtes Verhalten in Echtzeit verhindern.
Der Alignment-Score setzt sich aus mehreren messbaren Dimensionen zusammen:
| Dimension | Beschreibung | Gewichtung |
|---|---|---|
| Task Fidelity | Erfüllt der Agent seine definierte Aufgabe? | 30% |
| Policy Compliance | Hält der Agent die definierten Richtlinien ein? | 25% |
| Output Safety | Sind die Ausgaben sicher und angemessen? | 20% |
| Scope Adherence | Bleibt der Agent innerhalb seines Zuständigkeitsbereichs? | 15% |
| Consistency | Sind die Antworten konsistent über Zeit? | 10% |
# alignment-config.yml
alignment:
agent: support-agent-v3
dimensions:
task_fidelity:
weight: 0.30
evaluator: llm-judge
prompt: "Hat der Agent die Kundenanfrage korrekt beantwortet?"
sample_rate: 0.2
policy_compliance:
weight: 0.25
evaluator: rule-based
rules:
- no_competitor_mentions
- no_price_promises
- escalate_legal_questions
- use_approved_language
output_safety:
weight: 0.20
evaluator: classifier
checks: [toxicity, bias, pii_leak, hallucination]
scope_adherence:
weight: 0.15
evaluator: intent-classifier
allowed_intents: [support, billing, product_info, escalation]
forbidden_intents: [medical_advice, legal_advice, financial_advice]
consistency:
weight: 0.10
evaluator: embedding-similarity
baseline: last_30_days
threshold: 0.85
OpenClaw berechnet den Score kontinuierlich und zeigt den Verlauf:
Alignment-Score: Support Agent v3.1
═══════════════════════════════════
Aktuell: 0.91 / 1.00
7-Tage-Trend: ████████████████████░ 0.91 (stabil)
30-Tage-Trend: ██████████████████░░░ 0.89 → 0.91 (↑)
Aufschlüsselung:
Task Fidelity: 0.94 ✅
Policy Compliance: 0.88 ⚠️ (2 Verstöße diese Woche)
Output Safety: 0.96 ✅
Scope Adherence: 0.90 ✅
Consistency: 0.87 ⚠️ (leichte Drift)
Guardrails sind Echtzeit-Filter, die zwischen dem Agent und dem Endnutzer stehen:
input_guardrails:
- name: prompt-injection-detection
type: classifier
action: block
message: "Diese Anfrage kann nicht verarbeitet werden."
- name: topic-filter
type: keyword + semantic
blocked_topics: [weapons, illegal_activity, self_harm]
action: block
- name: pii-input-scan
type: pii-detector
action: mask_and_continue
output_guardrails:
- name: hallucination-check
type: grounded-check
sources: [knowledge_base]
threshold: 0.8
action: fallback_response
- name: toxicity-filter
type: classifier
threshold: 0.1
action: block_and_alert
- name: pii-output-scan
type: pii-detector
action: mask_before_delivery
- name: competitor-mention-check
type: keyword
blocked_terms: [CompetitorA, CompetitorB]
action: rephrase
Alignment-Drift ist eine schleichende Verschlechterung des Agent-Verhaltens:
drift_detection:
baseline_period: 30d
check_interval: 1h
alerts:
- dimension: any
drop: ">0.05" # 5% Drop
severity: warning
- dimension: any
drop: ">0.10" # 10% Drop
severity: critical
action: auto_pause_agent
Merke: Alignment ist kein einmaliges Setup — es erfordert kontinuierliche Überwachung. Agents können über Wochen langsam driften, ohne dass einzelne Interaktionen auffallen. Nur ein systematisches Scoring macht diesen Drift sichtbar.