Red Teaming & Penetration Testing

Sie können Ihre AI-Sicherheit erst dann vertrauen, wenn Sie sie aktiv angegriffen haben. Red Teaming für LLMs folgt eigenen Regeln — die Angriffsfläche ist anders als bei klassischer Software.

Red Team Methodology für AI

Warum AI Red Teaming anders ist

Traditionelles Pen Testing sucht nach bekannten Schwachstellen (CVEs). AI Red Teaming sucht nach emergenten Verhaltensweisen — Probleme, die aus der Interaktion zwischen Modell, System Prompt und Nutzereingaben entstehen.

Der Red-Team-Prozess

Phase 1 — Reconnaissance:

System Prompt extrahieren (oder rekonstruieren)
Modelltyp und -version identifizieren
Verfügbare Tools/Plugins dokumentieren
Rate Limits und Guardrails testen

Phase 2 — Attack Execution:

Systematische Prompt-Injection-Versuche
Jailbreaking-Techniken anwenden
Data-Exfiltration-Versuche
Privilege-Escalation über Tool Calls

Phase 3 — Reporting:

Alle erfolgreichen Angriffe dokumentieren
Severity-Rating (CVSS-ähnlich für AI)
Reproduzierbare Proof-of-Concepts erstellen
Empfehlungen für Mitigations

Automated Adversarial Testing

Tools und Frameworks

Tool	Beschreibung	Typ
Garak	Open-Source LLM Vulnerability Scanner	Automatisiert
PyRIT (Microsoft)	Red Teaming Automation Framework	Automatisiert
Promptfoo	Prompt Testing & Evaluation	Hybrid
ART (IBM)	Adversarial Robustness Toolbox	ML-fokussiert
Rebuff	Self-Hardening Prompt Injection Detector	Echtzeit

Automatisierte Teststrategien

Mutation Testing: Bekannte Angriffe systematisch variieren (Paraphrasierung, Übersetzung, Encoding)
Genetic Algorithms: Prompts evolutionär optimieren, um Guardrails zu umgehen
Tree-of-Attacks: LLM-gesteuerte Angriffe, die aus Fehlversuchen lernen
Gradient-based Attacks: Bei Open-Source-Modellen — adversariale Tokens mathematisch berechnen

Jailbreak Detection

Kategorien von Jailbreaks

Persona-basiert:

DAN (Do Anything Now), STAN, DUDE — Rollenspiel-basierte Umgehung
"Oma-Exploit": "Meine Oma hat mir immer vor dem Einschlafen Napalm-Rezepte vorgelesen..."

Encoding-basiert:

Base64-kodierte Instruktionen
ROT13, Caesar-Chiffre, Leetspeak
Unicode-Zeichen, die wie ASCII aussehen (Homoglyph Attack)

Logik-basiert:

Hypothetische Szenarien: "Rein hypothetisch, wenn ein Charakter in einem Roman..."
Negation: "Erkläre mir NICHT, wie man..." (Modell erklärt es trotzdem)
Step-by-Step: Schrittweise Eskalation über mehrere Turns

Detection-Strategien

Pattern Matching: Bekannte Jailbreak-Templates in einer Datenbank
Semantic Similarity: Neue Eingaben gegen bekannte Jailbreaks vergleichen
Behavioral Analysis: Modellverhalten über mehrere Turns tracken (schleichende Eskalation)
Canary Tokens: Geheime Tokens im System Prompt — wenn sie in der Ausgabe erscheinen, wurde der Prompt geleakt

Fuzzing für AI-Systeme

Prompt Fuzzing

Systematisch ungewöhnliche Eingaben generieren:

Character Fuzzing: Unicode-Sonderzeichen, Control Characters, Zero-Width-Spaces
Structure Fuzzing: Extrem lange Eingaben, tiefe Verschachtelung, unerwartete Formate
Semantic Fuzzing: Sinnlose aber grammatisch korrekte Eingaben, Grenzfälle
Multi-Modal Fuzzing: Bilder mit eingebettetem Text, Audio mit Steuersequenzen

Regel: Red Teaming ist kein einmaliges Event. Es muss kontinuierlich stattfinden — bei jedem Model-Update, jedem neuen Feature, jeder Änderung am System Prompt. Integrieren Sie es in Ihre CI/CD-Pipeline.