Data Security & Privacy
LLMs verarbeiten und generieren Text — und Text enthält oft personenbezogene Daten, Geschäftsgeheimnisse und vertrauliche Informationen. Datensicherheit in AI-Systemen erfordert spezifische Maßnahmen, die über klassische Verschlüsselung hinausgehen.
PII Leakage Prevention
Das Problem
LLMs können persönliche Daten auf mehreren Wegen leaken:
- Memorization: Das Modell hat PII aus Trainingsdaten memoriert und gibt sie bei passenden Prompts wieder
- In-Context Leakage: PII aus dem aktuellen Kontext (z. B. RAG-Dokumente) wird in Antworten eingebettet
- Cross-Session Leakage: Bei fehlerhafter Session-Isolation sehen Nutzer Daten anderer Nutzer
- Log Exposure: PII in Prompts landet in Logs, Monitoring-Tools und Analytics
Schutzmaßnahmen
Vor dem Modell (Input):
- PII-Detection mit Named Entity Recognition (NER) — Namen, E-Mails, Telefonnummern, IBANs erkennen
- Redaction: PII durch Platzhalter ersetzen ("[NAME]", "[EMAIL]")
- Pseudonymisierung: Konsistente Ersetzung (Max Müller → Person_A) für Kontexterhalt
Nach dem Modell (Output):
- Identische PII-Detection auf der Ausgabe
- Differential Privacy: Mathematische Garantie, dass einzelne Datenpunkte nicht extrahierbar sind
- Confidence Filtering: Antworten mit hoher PII-Wahrscheinlichkeit blockieren
Data Classification für AI
Klassifikationsstufen
| Stufe | Beschreibung | AI-Nutzung |
|---|
| Public | Öffentlich verfügbare Daten | Alle Modelle, inkl. Cloud-APIs |
| Internal | Interne, nicht-sensible Daten | Cloud-APIs mit DPA, Self-hosted |
| Confidential | Geschäftsgeheimnisse, Finanzdaten | Nur Self-hosted oder Private Cloud |
| Restricted | PII, Gesundheitsdaten, Zahlungsdaten | Self-hosted mit zusätzlichen Kontrollen |
Datenfluss-Kontrolle
- Data Loss Prevention (DLP): Automatische Erkennung und Blockierung sensibler Daten im AI-Datenfluss
- Tagging: Jedes Dokument im RAG-System erhält ein Klassifikations-Tag
- Access Control: RAG-Ergebnisse werden nach Nutzerrolle gefiltert
Verschlüsselung und Secure RAG
Encryption at Rest
- Vektor-Datenbanken: Embedding-Vektoren verschlüsselt speichern (AES-256)
- Dokument-Speicher: Quelldokumente mit at-rest Encryption
- Model Weights: Modellgewichte auf verschlüsselten Volumes
Encryption in Transit
- TLS 1.3 für alle API-Kommunikation
- mTLS zwischen internen Services (Model Server ↔ API Gateway ↔ RAG Service)
- Encrypted Embeddings: Embedding-Anfragen verschlüsselt übertragen
Secure RAG Architecture
- Document-Level ACLs: Jedes Dokument hat Zugriffsrechte — das RAG-System respektiert sie
- Query Rewriting: User-Query wird bereinigt, bevor sie die Vektor-Datenbank erreicht
- Result Filtering: Ergebnisse werden nach Nutzerberechtigung gefiltert
- Citation Verification: Jede Aussage wird auf das Quelldokument zurückgeführt
Differential Privacy
Das Konzept
Differential Privacy garantiert mathematisch, dass die Anwesenheit oder Abwesenheit eines einzelnen Datenpunkts das Modellergebnis nicht signifikant beeinflusst.
Mechanismen:
- Noise Injection: Kontrolliertes Rauschen zu Modellausgaben hinzufügen
- DP-SGD: Differentially Private Stochastic Gradient Descent beim Training
- Privacy Budget (ε): Quantifiziert den Grad des Datenschutzes — niedrigeres ε = mehr Privatsphäre
Praktische Anwendung
- Aggregierte Analysen: "Wie viele Kunden haben Produkt X gekauft?" — Antwort mit DP-Rauschen
- Federated Learning: Modelle lokal trainieren, nur Gradienten (mit DP) zentral aggregieren
- Synthetic Data: Differentially Private synthetische Daten generieren für Entwicklung und Testing
Grundsatz: Behandeln Sie jeden Prompt, jede Antwort und jeden Kontext-Chunk als potenziell sensibel. Die Kosten einer Data Breach übersteigen die Kosten von Datenschutzmaßnahmen um das 10- bis 100-Fache.