Retrieval-Augmented Generation (RAG) kombiniert die Sprachfähigkeiten von Large Language Models mit externem Wissen. Statt das Modell mit allen Informationen zu trainieren, werden relevante Dokumente zur Laufzeit abgerufen und als Kontext übergeben.
LLMs haben drei fundamentale Limitierungen:
RAG löst alle drei Probleme, indem es relevante Dokumente zur Laufzeit bereitstellt.
| Kriterium | RAG | Fine-Tuning |
|---|---|---|
| Aktualität | Echtzeit-Updates möglich | Erneutes Training nötig |
| Kosten | Niedrig (Infrastruktur) | Hoch (GPU-Training) |
| Halluzinationen | Deutlich reduziert (quellenbasiert) | Weiterhin möglich |
| Setup-Aufwand | Mittel (Pipeline bauen) | Hoch (Daten aufbereiten, trainieren) |
| Best für | Faktenwissen, Dokumente | Stil, Format, Domänen-Sprache |
Praxis-Tipp: RAG ist der schnellste Weg, Firmenwissen AI-zugänglich zu machen. In 80 % der Enterprise-Use-Cases ist RAG die bessere Wahl gegenüber Fine-Tuning — günstiger, aktueller und kontrollierbarer.
Die folgenden Lektionen vertiefen jeden Baustein der RAG-Architektur, von Embeddings über Chunking bis zur fertigen Pipeline.
Was löst RAG im Vergleich zu einem reinen LLM?