Evaluation und Qualitätssicherung

Eine RAG-Pipeline zu bauen ist einfach. Eine RAG-Pipeline zu bauen, die zuverlässig korrekte Antworten liefert, ist schwer. Systematische Evaluation ist der Unterschied zwischen Prototyp und Production.

Die drei Qualitätsdimensionen

1. Retrieval-Qualität

Findet die Pipeline die richtigen Chunks?

Precision@K: Wie viele der Top-K Chunks sind tatsächlich relevant?
Recall@K: Wie viele der relevanten Chunks wurden gefunden?
MRR (Mean Reciprocal Rank): Wie weit oben steht der erste relevante Chunk?

2. Generation-Qualität

Generiert das LLM korrekte Antworten aus den Chunks?

Faithfulness: Ist die Antwort durch die Quellen belegt? (Keine Halluzinationen)
Answer Relevancy: Beantwortet die Antwort tatsächlich die gestellte Frage?
Completeness: Enthält die Antwort alle relevanten Informationen?

3. End-to-End-Qualität

Wie gut funktioniert das Gesamtsystem?

Correctness: Stimmt die finale Antwort?
Latency: Wie schnell kommt die Antwort?
User Satisfaction: Bewerten echte Nutzer die Antworten positiv?

RAGAS Framework

RAGAS (Retrieval Augmented Generation Assessment) ist der De-facto-Standard für RAG-Evaluation:

Metrik	Misst	Bereich
Faithfulness	Halluzinationsfreiheit	0–1 (höher = besser)
Answer Relevancy	Relevanz der Antwort	0–1
Context Precision	Qualität des Retrievals	0–1
Context Recall	Vollständigkeit des Retrievals	0–1

Evaluation-Workflow

Golden Dataset erstellen: 50–100 Frage-Antwort-Paare mit erwarteten Quellen
Automatisierte Tests: RAGAS-Metriken nach jedem Pipeline-Change berechnen
Human Evaluation: Stichproben von Domain-Experten bewerten lassen
A/B-Testing: Verschiedene Konfigurationen vergleichen (Chunk-Größe, Reranker, Prompts)
Production Monitoring: Nutzer-Feedback, Latency, Fehlerrate tracken

Häufige Probleme und Fixes

Problem	Ursache	Fix
Falsche Antworten	Irrelevante Chunks	Reranking, besseres Chunking
„Ich weiß nicht"	Relevante Doku fehlt	Dokumentbasis erweitern
Halluzinationen	Schwacher Prompt	System-Prompt verschärfen
Langsam	Zu viele Chunks	Top-K reduzieren, Caching

Praxis-Tipp: Investieren Sie 30 % Ihrer RAG-Entwicklungszeit in Evaluation. Ein Golden Dataset mit 50 Fragen, das Sie nach jeder Änderung durchlaufen, spart Wochen an Debugging.