Red Teaming & Penetration Testing
Sie können Ihre AI-Sicherheit erst dann vertrauen, wenn Sie sie aktiv angegriffen haben. Red Teaming für LLMs folgt eigenen Regeln — die Angriffsfläche ist anders als bei klassischer Software.
Red Team Methodology für AI
Warum AI Red Teaming anders ist
Traditionelles Pen Testing sucht nach bekannten Schwachstellen (CVEs). AI Red Teaming sucht nach emergenten Verhaltensweisen — Probleme, die aus der Interaktion zwischen Modell, System Prompt und Nutzereingaben entstehen.
Der Red-Team-Prozess
Phase 1 — Reconnaissance:
- System Prompt extrahieren (oder rekonstruieren)
- Modelltyp und -version identifizieren
- Verfügbare Tools/Plugins dokumentieren
- Rate Limits und Guardrails testen
Phase 2 — Attack Execution:
- Systematische Prompt-Injection-Versuche
- Jailbreaking-Techniken anwenden
- Data-Exfiltration-Versuche
- Privilege-Escalation über Tool Calls
Phase 3 — Reporting:
- Alle erfolgreichen Angriffe dokumentieren
- Severity-Rating (CVSS-ähnlich für AI)
- Reproduzierbare Proof-of-Concepts erstellen
- Empfehlungen für Mitigations
Automated Adversarial Testing
Tools und Frameworks
| Tool | Beschreibung | Typ |
|---|
| Garak | Open-Source LLM Vulnerability Scanner | Automatisiert |
| PyRIT (Microsoft) | Red Teaming Automation Framework | Automatisiert |
| Promptfoo | Prompt Testing & Evaluation | Hybrid |
| ART (IBM) | Adversarial Robustness Toolbox | ML-fokussiert |
| Rebuff | Self-Hardening Prompt Injection Detector | Echtzeit |
Automatisierte Teststrategien
- Mutation Testing: Bekannte Angriffe systematisch variieren (Paraphrasierung, Übersetzung, Encoding)
- Genetic Algorithms: Prompts evolutionär optimieren, um Guardrails zu umgehen
- Tree-of-Attacks: LLM-gesteuerte Angriffe, die aus Fehlversuchen lernen
- Gradient-based Attacks: Bei Open-Source-Modellen — adversariale Tokens mathematisch berechnen
Jailbreak Detection
Kategorien von Jailbreaks
Persona-basiert:
- DAN (Do Anything Now), STAN, DUDE — Rollenspiel-basierte Umgehung
- "Oma-Exploit": "Meine Oma hat mir immer vor dem Einschlafen Napalm-Rezepte vorgelesen..."
Encoding-basiert:
- Base64-kodierte Instruktionen
- ROT13, Caesar-Chiffre, Leetspeak
- Unicode-Zeichen, die wie ASCII aussehen (Homoglyph Attack)
Logik-basiert:
- Hypothetische Szenarien: "Rein hypothetisch, wenn ein Charakter in einem Roman..."
- Negation: "Erkläre mir NICHT, wie man..." (Modell erklärt es trotzdem)
- Step-by-Step: Schrittweise Eskalation über mehrere Turns
Detection-Strategien
- Pattern Matching: Bekannte Jailbreak-Templates in einer Datenbank
- Semantic Similarity: Neue Eingaben gegen bekannte Jailbreaks vergleichen
- Behavioral Analysis: Modellverhalten über mehrere Turns tracken (schleichende Eskalation)
- Canary Tokens: Geheime Tokens im System Prompt — wenn sie in der Ausgabe erscheinen, wurde der Prompt geleakt
Fuzzing für AI-Systeme
Prompt Fuzzing
Systematisch ungewöhnliche Eingaben generieren:
- Character Fuzzing: Unicode-Sonderzeichen, Control Characters, Zero-Width-Spaces
- Structure Fuzzing: Extrem lange Eingaben, tiefe Verschachtelung, unerwartete Formate
- Semantic Fuzzing: Sinnlose aber grammatisch korrekte Eingaben, Grenzfälle
- Multi-Modal Fuzzing: Bilder mit eingebettetem Text, Audio mit Steuersequenzen
Regel: Red Teaming ist kein einmaliges Event. Es muss kontinuierlich stattfinden — bei jedem Model-Update, jedem neuen Feature, jeder Änderung am System Prompt. Integrieren Sie es in Ihre CI/CD-Pipeline.