Halluzinationen verstehen und vermeiden — Daten & AI — Interaktive AI Kurse

Halluzinationen verstehen und vermeiden 🔧

Ein Anwalt reichte 2023 einen Schriftsatz ein, der sechs Gerichtsurteile zitierte — die alle von ChatGPT erfunden worden waren. Der Fall sorgte weltweit für Schlagzeilen und wurde zum Paradebeispiel für AI-Halluzinationen. Auch 2026 sind Halluzinationen nicht vollständig gelöst, aber die Werkzeuge zur Eindämmung sind deutlich besser geworden. Wer sie versteht, kann AI trotzdem sicher einsetzen.

🎯 Was Sie in dieser Lektion lernen

Warum LLMs halluzinieren — die technische Erklärung verständlich erklärt
Die vier Typen von Halluzinationen sicher unterscheiden
Grounding-Techniken im Vergleich: RAG, Citations, Web Search
Einen praktischen Verifikations-Workflow für Ihren Arbeitsalltag aufbauen

Warum halluzinieren LLMs? 🧠

📖 Definition: Eine AI-Halluzination ist eine vom Modell generierte Aussage, die plausibel klingt, aber faktisch falsch ist — erfundene Fakten, nicht existierende Quellen oder logisch inkorrekte Schlussfolgerungen.

LLMs sind statistische Textgeneratoren. Sie berechnen das wahrscheinlichste nächste Token (Wort oder Wortbestandteil) basierend auf dem bisherigen Kontext. Das bedeutet:

📊 Sie optimieren auf Plausibilität, nicht auf Korrektheit
🧩 Bei fehlender Information füllen sie Lücken mit plausiblen, aber erfundenen Inhalten
🔄 Sie können nicht zwischen "wissen" und "raten" unterscheiden
⏰ Sie haben keinen Zugriff auf Echtzeitinformationen (ohne Tools)

💡 Tipp: Halluzinationen sind kein Bug, sondern eine Eigenschaft der Architektur. Jedes LLM halluziniert — die Frage ist, wie häufig und wie Sie damit umgehen.

Die vier Typen von Halluzinationen 🎭

Typ	Beschreibung	Beispiel	Risiko
📚 Fakten-Halluzination	Erfundene Fakten oder Ereignisse	"Der Umsatz von Firma X betrug 2025 genau 4,7 Mrd. €" (frei erfunden)	🔴 Hoch
📄 Quellen-Fabrikation	Nicht existierende Quellen zitiert	"Laut einer Harvard-Studie von 2025…" (Studie existiert nicht)	🔴 Sehr hoch
🔢 Numerische Halluzination	Falsche Zahlen, Berechnungen	"23 % von 450 sind 103,5" (korrekt wäre 103,5 — aber oft mit groben Fehlern)	🟡 Mittel
🔗 Logische Halluzination	Korrekte Fakten, falsche Schlussfolgerung	"A führt zu B, B führt zu C, also führt A direkt zu D"	🟡 Mittel

⚠️ Achtung: Quellen-Fabrikation ist besonders gefährlich, weil sie Vertrauen suggeriert. Wenn ein LLM eine "Studie" zitiert, prüfen Sie immer, ob diese tatsächlich existiert — egal wie überzeugend die Referenz klingt.

Grounding-Techniken im Vergleich ⚓

Grounding bezeichnet Methoden, die AI-Antworten in verifizierten Fakten verankern:

Technik	Funktionsweise	Halluzinations-Reduktion	Aufwand
🔍 RAG (Retrieval-Augmented Generation)	Modell sucht zuerst in eigener Wissensdatenbank	⬇️ 60–80 %	Mittel bis hoch
📎 Citations (Quellenangaben)	Modell muss jede Aussage mit Quelle belegen	⬇️ 40–60 %	Niedrig
🌐 Web Search	Modell greift auf aktuelle Webinhalte zu	⬇️ 50–70 %	Niedrig
🔗 Kombination RAG + Citations	Wissensdatenbank plus Quellennachweis	⬇️ 80–95 %	Hoch

🏢 Praxis-Beispiel: Ein Beratungsunternehmen implementierte RAG mit ihrer internen Wissensdatenbank (15.000 Dokumente). Vor RAG enthielten 23 % der AI-generierten Berichte faktische Fehler. Nach RAG sank die Quote auf unter 3 %. Die Investition amortisierte sich in 4 Monaten.

Modell-spezifische Tendenzen (Februar 2026) 🤖

Nicht alle Modelle halluzinieren gleich:

🟢 Claude Opus 4.6: Sagt häufiger "Ich bin nicht sicher" statt zu raten — starke Halluzinations-Kontrolle durch Constitutional AI
🟢 GPT-5: Deutlich verbessert gegenüber GPT-4, besonders bei numerischen Aufgaben
🟡 Gemini 3.1: Stark bei Fakten dank Echtzeit-Webzugang, gelegentliche Fehler bei Nischen-Themen
🟡 Llama 4: Gut für allgemeine Aufgaben, höhere Halluzinationsrate bei Spezialwissen

💡 Tipp: Für Anwendungen, in denen Genauigkeit kritisch ist (Recht, Finanzen, Medizin), wählen Sie Modelle mit nachweislich niedrigen Halluzinationsraten und kombinieren Sie diese mit RAG.

Praktischer Verifikations-Workflow ✅

Ein bewährter Vier-Stufen-Prozess für den sicheren Umgang mit AI-Output:

Stufe 1: 🤖 AI generiert Antwort (mit Quellenangaben-Prompt)
Stufe 2: 🔍 AI prüft eigene Antwort auf interne Konsistenz
Stufe 3: 📊 Automatischer Abgleich mit verifizierten Datenquellen
Stufe 4: 👤 Mensch verifiziert kritische Fakten und gibt frei

Zusätzliche Absicherungen:

🌡️ Temperatur senken: Einstellung auf 0.0–0.3 für faktenbasierte Aufgaben
📝 Prompt-Design: "Wenn du dir nicht sicher bist, sage es. Erfinde keine Informationen."
🏷️ Konfidenz-Labels: AI-Output mit Sicherheits-Einschätzung versehen lassen
📋 AI-Kennzeichnung: Intern und extern klar kommunizieren, welche Inhalte AI-generiert sind

🔑 Merke: Vertrauen Sie AI-Output wie einem brillanten Praktikanten — beeindruckend schnell und oft richtig, aber immer prüfenswert. Je kritischer die Anwendung, desto mehr Verifikation.

📋 Zusammenfassung

Halluzinationen sind eine Eigenschaft der LLM-Architektur, kein Bug — sie treten bei jedem Modell auf
Die vier Typen (Fakten, Quellen, Numerik, Logik) erfordern unterschiedliche Gegenmaßnahmen
RAG + Citations ist die wirksamste Kombination und kann Halluzinationen um 80–95 % reduzieren

🎯 Übung: Stellen Sie demselben LLM dreimal die gleiche Fachfrage aus Ihrem Bereich. Vergleichen Sie die Antworten — Abweichungen sind ein Indikator für Halluzinationsrisiko. Dokumentieren Sie, wo das Modell konsistent und wo es unsicher antwortet.

Nächste Lektion: Daten-Governance für AI-Projekte — wie Sie Compliance und Datenschutz sicherstellen.