Evaluation und Qualitätssicherung
Eine RAG-Pipeline zu bauen ist einfach. Eine RAG-Pipeline zu bauen, die zuverlässig korrekte Antworten liefert, ist schwer. Systematische Evaluation ist der Unterschied zwischen Prototyp und Production.
Die drei Qualitätsdimensionen
1. Retrieval-Qualität
Findet die Pipeline die richtigen Chunks?
- Precision@K: Wie viele der Top-K Chunks sind tatsächlich relevant?
- Recall@K: Wie viele der relevanten Chunks wurden gefunden?
- MRR (Mean Reciprocal Rank): Wie weit oben steht der erste relevante Chunk?
2. Generation-Qualität
Generiert das LLM korrekte Antworten aus den Chunks?
- Faithfulness: Ist die Antwort durch die Quellen belegt? (Keine Halluzinationen)
- Answer Relevancy: Beantwortet die Antwort tatsächlich die gestellte Frage?
- Completeness: Enthält die Antwort alle relevanten Informationen?
3. End-to-End-Qualität
Wie gut funktioniert das Gesamtsystem?
- Correctness: Stimmt die finale Antwort?
- Latency: Wie schnell kommt die Antwort?
- User Satisfaction: Bewerten echte Nutzer die Antworten positiv?
RAGAS Framework
RAGAS (Retrieval Augmented Generation Assessment) ist der De-facto-Standard für RAG-Evaluation:
| Metrik | Misst | Bereich |
|---|
| Faithfulness | Halluzinationsfreiheit | 0–1 (höher = besser) |
| Answer Relevancy | Relevanz der Antwort | 0–1 |
| Context Precision | Qualität des Retrievals | 0–1 |
| Context Recall | Vollständigkeit des Retrievals | 0–1 |
Evaluation-Workflow
- Golden Dataset erstellen: 50–100 Frage-Antwort-Paare mit erwarteten Quellen
- Automatisierte Tests: RAGAS-Metriken nach jedem Pipeline-Change berechnen
- Human Evaluation: Stichproben von Domain-Experten bewerten lassen
- A/B-Testing: Verschiedene Konfigurationen vergleichen (Chunk-Größe, Reranker, Prompts)
- Production Monitoring: Nutzer-Feedback, Latency, Fehlerrate tracken
Häufige Probleme und Fixes
| Problem | Ursache | Fix |
|---|
| Falsche Antworten | Irrelevante Chunks | Reranking, besseres Chunking |
| „Ich weiß nicht" | Relevante Doku fehlt | Dokumentbasis erweitern |
| Halluzinationen | Schwacher Prompt | System-Prompt verschärfen |
| Langsam | Zu viele Chunks | Top-K reduzieren, Caching |
Praxis-Tipp: Investieren Sie 30 % Ihrer RAG-Entwicklungszeit in Evaluation. Ein Golden Dataset mit 50 Fragen, das Sie nach jeder Änderung durchlaufen, spart Wochen an Debugging.