Alignment-Score & Guardrails

Wie stellen Sie sicher, dass Ihre AI Agents das tun, was sie sollen — und nicht mehr? OpenClaw berechnet für jeden Agent einen Alignment-Score und bietet konfigurierbare Guardrails, die unerwünschtes Verhalten in Echtzeit verhindern.

Alignment-Metriken definieren

Der Alignment-Score setzt sich aus mehreren messbaren Dimensionen zusammen:

Dimension	Beschreibung	Gewichtung
Task Fidelity	Erfüllt der Agent seine definierte Aufgabe?	30%
Policy Compliance	Hält der Agent die definierten Richtlinien ein?	25%
Output Safety	Sind die Ausgaben sicher und angemessen?	20%
Scope Adherence	Bleibt der Agent innerhalb seines Zuständigkeitsbereichs?	15%
Consistency	Sind die Antworten konsistent über Zeit?	10%

Konfiguration

# alignment-config.yml
alignment:
  agent: support-agent-v3
  dimensions:
    task_fidelity:
      weight: 0.30
      evaluator: llm-judge
      prompt: "Hat der Agent die Kundenanfrage korrekt beantwortet?"
      sample_rate: 0.2

    policy_compliance:
      weight: 0.25
      evaluator: rule-based
      rules:
        - no_competitor_mentions
        - no_price_promises
        - escalate_legal_questions
        - use_approved_language

    output_safety:
      weight: 0.20
      evaluator: classifier
      checks: [toxicity, bias, pii_leak, hallucination]

    scope_adherence:
      weight: 0.15
      evaluator: intent-classifier
      allowed_intents: [support, billing, product_info, escalation]
      forbidden_intents: [medical_advice, legal_advice, financial_advice]

    consistency:
      weight: 0.10
      evaluator: embedding-similarity
      baseline: last_30_days
      threshold: 0.85

Automatisches Alignment-Scoring

OpenClaw berechnet den Score kontinuierlich und zeigt den Verlauf:

Alignment-Score: Support Agent v3.1
═══════════════════════════════════
Aktuell:       0.91 / 1.00
7-Tage-Trend:  ████████████████████░ 0.91 (stabil)
30-Tage-Trend: ██████████████████░░░ 0.89 → 0.91 (↑)

Aufschlüsselung:
  Task Fidelity:     0.94 ✅
  Policy Compliance:  0.88 ⚠️ (2 Verstöße diese Woche)
  Output Safety:     0.96 ✅
  Scope Adherence:   0.90 ✅
  Consistency:       0.87 ⚠️ (leichte Drift)

Guardrail-Konfiguration

Guardrails sind Echtzeit-Filter, die zwischen dem Agent und dem Endnutzer stehen:

Input Guardrails (vor dem Agent)

input_guardrails:
  - name: prompt-injection-detection
    type: classifier
    action: block
    message: "Diese Anfrage kann nicht verarbeitet werden."

  - name: topic-filter
    type: keyword + semantic
    blocked_topics: [weapons, illegal_activity, self_harm]
    action: block

  - name: pii-input-scan
    type: pii-detector
    action: mask_and_continue

Output Guardrails (nach dem Agent)

output_guardrails:
  - name: hallucination-check
    type: grounded-check
    sources: [knowledge_base]
    threshold: 0.8
    action: fallback_response

  - name: toxicity-filter
    type: classifier
    threshold: 0.1
    action: block_and_alert

  - name: pii-output-scan
    type: pii-detector
    action: mask_before_delivery

  - name: competitor-mention-check
    type: keyword
    blocked_terms: [CompetitorA, CompetitorB]
    action: rephrase

Drift Detection

Alignment-Drift ist eine schleichende Verschlechterung des Agent-Verhaltens:

Ursachen für Drift

Modell-Updates — Der LLM-Provider aktualisiert das Modell
Kontext-Veränderung — Neue Dokumente in der Knowledge Base
Nutzungsänderung — Neue Nutzergruppen mit anderen Anfragen
Prompt-Erosion — Schrittweise Anpassungen verschlechtern die Qualität

Drift-Alerting

drift_detection:
  baseline_period: 30d
  check_interval: 1h
  alerts:
    - dimension: any
      drop: ">0.05"  # 5% Drop
      severity: warning
    - dimension: any
      drop: ">0.10"  # 10% Drop
      severity: critical
      action: auto_pause_agent

Merke: Alignment ist kein einmaliges Setup — es erfordert kontinuierliche Überwachung. Agents können über Wochen langsam driften, ohne dass einzelne Interaktionen auffallen. Nur ein systematisches Scoring macht diesen Drift sichtbar.