Lektion 2 von 5·10 Min Lesezeit

Trainingsdaten vorbereiten

Die Qualität Ihres Fine-Tuning steht und fällt mit den Trainingsdaten. „Garbage in, garbage out" gilt hier mehr als irgendwo sonst. Gute Trainingsdaten sind der Unterschied zwischen einem nützlichen und einem nutzlosen Modell.

Formate

JSONL (JSON Lines) — Standard-Format

{"messages": [{"role": "system", "content": "Du bist ein Marken-Texter..."}, {"role": "user", "content": "Schreibe einen Produkttext für..."}, {"role": "assistant", "content": "Entdecke..."}]}
{"messages": [{"role": "system", "content": "Du bist ein Marken-Texter..."}, {"role": "user", "content": "Beschreibe unser neues..."}, {"role": "assistant", "content": "Innovation..."}]}

Alpaca-Format (Open Source)

{"instruction": "Schreibe einen Produkttext", "input": "Produkt: Smart Watch X1", "output": "Die Smart Watch X1..."}

ShareGPT-Format (Multi-Turn)

{"conversations": [{"from": "human", "value": "..."}, {"from": "gpt", "value": "..."}, {"from": "human", "value": "..."}, {"from": "gpt", "value": "..."}]}

Datenqualität sicherstellen

Die 5 Qualitätskriterien

KriteriumBeschreibungCheck
KorrektheitSind die Antworten inhaltlich richtig?Expert Review
KonsistenzGleicher Stil und Ton in allen Beispielen?Style Guide
VielfaltDecken die Beispiele verschiedene Szenarien ab?Coverage Matrix
RelevanzPassen die Beispiele zum Ziel-Use-Case?Use-Case-Alignment
LängeEntsprechen die Antworten der gewünschten Ausgabelänge?Token-Count

Häufige Qualitätsprobleme

  • ❌ Copy-Paste aus ChatGPT (Modell lernt generischen Stil)
  • ❌ Widersprüchliche Antworten auf ähnliche Fragen
  • ❌ Zu wenig Vielfalt (nur ein Thema, nur eine Antwortstruktur)
  • ❌ Formatierungs-Inkonsistenzen (mal Markdown, mal Plain Text)

Annotation — Wer labelt?

MethodeQualitätKostenSkalierung
Eigene ExpertenSehr hochHochNiedrig
Annotation-Services (Scale AI, Toloka)HochMittelHoch
LLM-gestützte AnnotationMittelNiedrigSehr hoch
Community/CrowdsourcingVariabelNiedrigHoch

Best Practice: LLM-Vorschlag + Expert Review — die AI erstellt einen Entwurf, ein Mensch prüft und korrigiert.

Augmentation — Mehr aus weniger Daten

  • Paraphrasierung: LLM erstellt Varianten bestehender Beispiele
  • Back-Translation: Übersetzen in andere Sprache und zurück
  • Scenario Variation: Gleiche Aufgabe mit verschiedenen Kontexten
  • Difficulty Scaling: Einfache und komplexe Varianten jeder Aufgabe

Wie viele Daten brauche ich?

ZielMinimumEmpfohlenMaximum
Stil-Anpassung50 Beispiele200–5001.000
Task-Spezialisierung100 Beispiele500–2.00010.000
Domain-Training500 Beispiele2.000–10.000100.000+

Praxis-Tipp: Starten Sie mit 100 hochwertigen Beispielen. Trainieren, evaluieren, dann gezielt ergänzen. 100 perfekte Beispiele schlagen 10.000 mittelmäßige.