Lektion 3 von 6·10 Min Lesezeit

Red Teaming & Penetration Testing

Sie können Ihre AI-Sicherheit erst dann vertrauen, wenn Sie sie aktiv angegriffen haben. Red Teaming für LLMs folgt eigenen Regeln — die Angriffsfläche ist anders als bei klassischer Software.

Red Team Methodology für AI

Warum AI Red Teaming anders ist

Traditionelles Pen Testing sucht nach bekannten Schwachstellen (CVEs). AI Red Teaming sucht nach emergenten Verhaltensweisen — Probleme, die aus der Interaktion zwischen Modell, System Prompt und Nutzereingaben entstehen.

Der Red-Team-Prozess

Phase 1 — Reconnaissance:

  • System Prompt extrahieren (oder rekonstruieren)
  • Modelltyp und -version identifizieren
  • Verfügbare Tools/Plugins dokumentieren
  • Rate Limits und Guardrails testen

Phase 2 — Attack Execution:

  • Systematische Prompt-Injection-Versuche
  • Jailbreaking-Techniken anwenden
  • Data-Exfiltration-Versuche
  • Privilege-Escalation über Tool Calls

Phase 3 — Reporting:

  • Alle erfolgreichen Angriffe dokumentieren
  • Severity-Rating (CVSS-ähnlich für AI)
  • Reproduzierbare Proof-of-Concepts erstellen
  • Empfehlungen für Mitigations

Automated Adversarial Testing

Tools und Frameworks

ToolBeschreibungTyp
GarakOpen-Source LLM Vulnerability ScannerAutomatisiert
PyRIT (Microsoft)Red Teaming Automation FrameworkAutomatisiert
PromptfooPrompt Testing & EvaluationHybrid
ART (IBM)Adversarial Robustness ToolboxML-fokussiert
RebuffSelf-Hardening Prompt Injection DetectorEchtzeit

Automatisierte Teststrategien

  • Mutation Testing: Bekannte Angriffe systematisch variieren (Paraphrasierung, Übersetzung, Encoding)
  • Genetic Algorithms: Prompts evolutionär optimieren, um Guardrails zu umgehen
  • Tree-of-Attacks: LLM-gesteuerte Angriffe, die aus Fehlversuchen lernen
  • Gradient-based Attacks: Bei Open-Source-Modellen — adversariale Tokens mathematisch berechnen

Jailbreak Detection

Kategorien von Jailbreaks

Persona-basiert:

  • DAN (Do Anything Now), STAN, DUDE — Rollenspiel-basierte Umgehung
  • "Oma-Exploit": "Meine Oma hat mir immer vor dem Einschlafen Napalm-Rezepte vorgelesen..."

Encoding-basiert:

  • Base64-kodierte Instruktionen
  • ROT13, Caesar-Chiffre, Leetspeak
  • Unicode-Zeichen, die wie ASCII aussehen (Homoglyph Attack)

Logik-basiert:

  • Hypothetische Szenarien: "Rein hypothetisch, wenn ein Charakter in einem Roman..."
  • Negation: "Erkläre mir NICHT, wie man..." (Modell erklärt es trotzdem)
  • Step-by-Step: Schrittweise Eskalation über mehrere Turns

Detection-Strategien

  • Pattern Matching: Bekannte Jailbreak-Templates in einer Datenbank
  • Semantic Similarity: Neue Eingaben gegen bekannte Jailbreaks vergleichen
  • Behavioral Analysis: Modellverhalten über mehrere Turns tracken (schleichende Eskalation)
  • Canary Tokens: Geheime Tokens im System Prompt — wenn sie in der Ausgabe erscheinen, wurde der Prompt geleakt

Fuzzing für AI-Systeme

Prompt Fuzzing

Systematisch ungewöhnliche Eingaben generieren:

  • Character Fuzzing: Unicode-Sonderzeichen, Control Characters, Zero-Width-Spaces
  • Structure Fuzzing: Extrem lange Eingaben, tiefe Verschachtelung, unerwartete Formate
  • Semantic Fuzzing: Sinnlose aber grammatisch korrekte Eingaben, Grenzfälle
  • Multi-Modal Fuzzing: Bilder mit eingebettetem Text, Audio mit Steuersequenzen

Regel: Red Teaming ist kein einmaliges Event. Es muss kontinuierlich stattfinden — bei jedem Model-Update, jedem neuen Feature, jeder Änderung am System Prompt. Integrieren Sie es in Ihre CI/CD-Pipeline.