Trainingsdaten vorbereiten

Die Qualität Ihres Fine-Tuning steht und fällt mit den Trainingsdaten. „Garbage in, garbage out" gilt hier mehr als irgendwo sonst. Gute Trainingsdaten sind der Unterschied zwischen einem nützlichen und einem nutzlosen Modell.

Formate

JSONL (JSON Lines) — Standard-Format

{"messages": [{"role": "system", "content": "Du bist ein Marken-Texter..."}, {"role": "user", "content": "Schreibe einen Produkttext für..."}, {"role": "assistant", "content": "Entdecke..."}]}
{"messages": [{"role": "system", "content": "Du bist ein Marken-Texter..."}, {"role": "user", "content": "Beschreibe unser neues..."}, {"role": "assistant", "content": "Innovation..."}]}

Alpaca-Format (Open Source)

{"instruction": "Schreibe einen Produkttext", "input": "Produkt: Smart Watch X1", "output": "Die Smart Watch X1..."}

ShareGPT-Format (Multi-Turn)

{"conversations": [{"from": "human", "value": "..."}, {"from": "gpt", "value": "..."}, {"from": "human", "value": "..."}, {"from": "gpt", "value": "..."}]}

Datenqualität sicherstellen

Die 5 Qualitätskriterien

Kriterium	Beschreibung	Check
Korrektheit	Sind die Antworten inhaltlich richtig?	Expert Review
Konsistenz	Gleicher Stil und Ton in allen Beispielen?	Style Guide
Vielfalt	Decken die Beispiele verschiedene Szenarien ab?	Coverage Matrix
Relevanz	Passen die Beispiele zum Ziel-Use-Case?	Use-Case-Alignment
Länge	Entsprechen die Antworten der gewünschten Ausgabelänge?	Token-Count

Häufige Qualitätsprobleme

❌ Copy-Paste aus ChatGPT (Modell lernt generischen Stil)
❌ Widersprüchliche Antworten auf ähnliche Fragen
❌ Zu wenig Vielfalt (nur ein Thema, nur eine Antwortstruktur)
❌ Formatierungs-Inkonsistenzen (mal Markdown, mal Plain Text)

Annotation — Wer labelt?

Methode	Qualität	Kosten	Skalierung
Eigene Experten	Sehr hoch	Hoch	Niedrig
Annotation-Services (Scale AI, Toloka)	Hoch	Mittel	Hoch
LLM-gestützte Annotation	Mittel	Niedrig	Sehr hoch
Community/Crowdsourcing	Variabel	Niedrig	Hoch

Best Practice: LLM-Vorschlag + Expert Review — die AI erstellt einen Entwurf, ein Mensch prüft und korrigiert.

Augmentation — Mehr aus weniger Daten

Paraphrasierung: LLM erstellt Varianten bestehender Beispiele
Back-Translation: Übersetzen in andere Sprache und zurück
Scenario Variation: Gleiche Aufgabe mit verschiedenen Kontexten
Difficulty Scaling: Einfache und komplexe Varianten jeder Aufgabe

Wie viele Daten brauche ich?

Ziel	Minimum	Empfohlen	Maximum
Stil-Anpassung	50 Beispiele	200–500	1.000
Task-Spezialisierung	100 Beispiele	500–2.000	10.000
Domain-Training	500 Beispiele	2.000–10.000	100.000+

Praxis-Tipp: Starten Sie mit 100 hochwertigen Beispielen. Trainieren, evaluieren, dann gezielt ergänzen. 100 perfekte Beispiele schlagen 10.000 mittelmäßige.