Lektion 4 von 5·7 Min Lesezeit

Halluzinationen verstehen und vermeiden 🔧

Ein Anwalt reichte 2023 einen Schriftsatz ein, der sechs Gerichtsurteile zitierte — die alle von ChatGPT erfunden worden waren. Der Fall sorgte weltweit für Schlagzeilen und wurde zum Paradebeispiel für AI-Halluzinationen. Auch 2026 sind Halluzinationen nicht vollständig gelöst, aber die Werkzeuge zur Eindämmung sind deutlich besser geworden. Wer sie versteht, kann AI trotzdem sicher einsetzen.


🎯 Was Sie in dieser Lektion lernen

  • Warum LLMs halluzinieren — die technische Erklärung verständlich erklärt
  • Die vier Typen von Halluzinationen sicher unterscheiden
  • Grounding-Techniken im Vergleich: RAG, Citations, Web Search
  • Einen praktischen Verifikations-Workflow für Ihr Unternehmen aufbauen

Warum halluzinieren LLMs? 🧠

📖 Definition: Eine AI-Halluzination ist eine vom Modell generierte Aussage, die plausibel klingt, aber faktisch falsch ist — erfundene Fakten, nicht existierende Quellen oder logisch inkorrekte Schlussfolgerungen.

LLMs sind statistische Textgeneratoren. Sie berechnen das wahrscheinlichste nächste Token (Wort oder Wortbestandteil) basierend auf dem bisherigen Kontext. Das bedeutet:

  • 📊 Sie optimieren auf Plausibilität, nicht auf Korrektheit
  • 🧩 Bei fehlender Information füllen sie Lücken mit plausiblen, aber erfundenen Inhalten
  • 🔄 Sie können nicht zwischen "wissen" und "raten" unterscheiden
  • ⏰ Sie haben keinen Zugriff auf Echtzeitinformationen (ohne Tools)

💡 Tipp: Halluzinationen sind kein Bug, sondern eine Eigenschaft der Architektur. Jedes LLM halluziniert — die Frage ist, wie häufig und wie Sie damit umgehen.


Die vier Typen von Halluzinationen 🎭

TypBeschreibungBeispielRisiko
📚 Fakten-HalluzinationErfundene Fakten oder Ereignisse"Der Umsatz von Firma X betrug 2025 genau 4,7 Mrd. €" (frei erfunden)🔴 Hoch
📄 Quellen-FabrikationNicht existierende Quellen zitiert"Laut einer Harvard-Studie von 2025…" (Studie existiert nicht)🔴 Sehr hoch
🔢 Numerische HalluzinationFalsche Zahlen, Berechnungen"23 % von 450 sind 103,5" (korrekt wäre 103,5 — aber oft mit groben Fehlern)🟡 Mittel
🔗 Logische HalluzinationKorrekte Fakten, falsche Schlussfolgerung"A führt zu B, B führt zu C, also führt A direkt zu D"🟡 Mittel

⚠️ Achtung: Quellen-Fabrikation ist besonders gefährlich, weil sie Vertrauen suggeriert. Wenn ein LLM eine "Studie" zitiert, prüfen Sie immer, ob diese tatsächlich existiert — egal wie überzeugend die Referenz klingt.


Grounding-Techniken im Vergleich ⚓

Grounding bezeichnet Methoden, die AI-Antworten in verifizierten Fakten verankern:

TechnikFunktionsweiseHalluzinations-ReduktionAufwand
🔍 RAG (Retrieval-Augmented Generation)Modell sucht zuerst in eigener Wissensdatenbank⬇️ 60–80 %Mittel bis hoch
📎 Citations (Quellenangaben)Modell muss jede Aussage mit Quelle belegen⬇️ 40–60 %Niedrig
🌐 Web SearchModell greift auf aktuelle Webinhalte zu⬇️ 50–70 %Niedrig
🔗 Kombination RAG + CitationsWissensdatenbank plus Quellennachweis⬇️ 80–95 %Hoch

🏢 Praxis-Beispiel: Ein Beratungsunternehmen implementierte RAG mit ihrer internen Wissensdatenbank (15.000 Dokumente). Vor RAG enthielten 23 % der AI-generierten Berichte faktische Fehler. Nach RAG sank die Quote auf unter 3 %. Die Investition amortisierte sich in 4 Monaten.


Modell-spezifische Tendenzen (Februar 2026) 🤖

Nicht alle Modelle halluzinieren gleich:

  • 🟢 Claude Opus 4.6: Sagt häufiger "Ich bin nicht sicher" statt zu raten — starke Halluzinations-Kontrolle durch Constitutional AI
  • 🟢 GPT-5: Deutlich verbessert gegenüber GPT-4, besonders bei numerischen Aufgaben
  • 🟡 Gemini 3.1: Stark bei Fakten dank Echtzeit-Webzugang, gelegentliche Fehler bei Nischen-Themen
  • 🟡 Llama 4: Gut für allgemeine Aufgaben, höhere Halluzinationsrate bei Spezialwissen

💡 Tipp: Für Anwendungen, in denen Genauigkeit kritisch ist (Recht, Finanzen, Medizin), wählen Sie Modelle mit nachweislich niedrigen Halluzinationsraten und kombinieren Sie diese mit RAG.


Praktischer Verifikations-Workflow ✅

Ein bewährter Vier-Stufen-Prozess für den sicheren Umgang mit AI-Output:

Stufe 1: 🤖 AI generiert Antwort (mit Quellenangaben-Prompt)
Stufe 2: 🔍 AI prüft eigene Antwort auf interne Konsistenz
Stufe 3: 📊 Automatischer Abgleich mit verifizierten Datenquellen
Stufe 4: 👤 Mensch verifiziert kritische Fakten und gibt frei

Zusätzliche Absicherungen:

  • 🌡️ Temperatur senken: Einstellung auf 0.0–0.3 für faktenbasierte Aufgaben
  • 📝 Prompt-Design: "Wenn du dir nicht sicher bist, sage es. Erfinde keine Informationen."
  • 🏷️ Konfidenz-Labels: AI-Output mit Sicherheits-Einschätzung versehen lassen
  • 📋 AI-Kennzeichnung: Intern und extern klar kommunizieren, welche Inhalte AI-generiert sind

🔑 Merke: Vertrauen Sie AI-Output wie einem brillanten Praktikanten — beeindruckend schnell und oft richtig, aber immer prüfenswert. Je kritischer die Anwendung, desto mehr Verifikation.


📋 Zusammenfassung

  • Halluzinationen sind eine Eigenschaft der LLM-Architektur, kein Bug — sie treten bei jedem Modell auf
  • Die vier Typen (Fakten, Quellen, Numerik, Logik) erfordern unterschiedliche Gegenmaßnahmen
  • RAG + Citations ist die wirksamste Kombination und kann Halluzinationen um 80–95 % reduzieren

🎯 Übung: Stellen Sie demselben LLM dreimal die gleiche Fachfrage aus Ihrem Bereich. Vergleichen Sie die Antworten — Abweichungen sind ein Indikator für Halluzinationsrisiko. Dokumentieren Sie, wo das Modell konsistent und wo es unsicher antwortet.


Nächste Lektion: Daten-Governance für AI-Projekte — wie Sie Compliance und Datenschutz sicherstellen.

📝

Quiz

Frage 1 von 4

Warum halluzinieren LLMs?