Lektion 5 von 5·8 Min Lesezeit

Kosten-Nutzen-Analyse

Fine-Tuning kann sich rechnen — oder ein teures Experiment bleiben. Dieser Guide hilft Ihnen, die Total Cost of Ownership (TCO) realistisch zu kalkulieren und die richtige Entscheidung zu treffen.

Wann sich Fine-Tuning rechnet

Die Break-Even-Formel

Monatliche Ersparnis = (Kosten_BaseModel × Anfragen) - (Kosten_FT_Model × Anfragen)
Amortisation = Einmalige_FT_Kosten / Monatliche_Ersparnis

Beispiel:

  • GPT-4o: $5/1M Output-Tokens × 10M Tokens/Monat = $50/Monat
  • Fine-Tuned GPT-4o-mini: $2/1M × 10M = $20/Monat + $100 Training
  • Ersparnis: $30/Monat → Break-Even nach 3,3 Monaten ✅

Wann es sich NICHT rechnet

  • Weniger als 100.000 Anfragen pro Monat (zu wenig Volumen)
  • Use Case ändert sich häufig (ständiges Re-Training)
  • Prompting/RAG liefert bereits 90 %+ Qualität
  • Kein internes ML-Know-how vorhanden

Total Cost of Ownership (TCO)

Einmalige Kosten

PostenManaged (OpenAI)Open Source
Daten-Vorbereitung20–40 Stunden20–40 Stunden
Training$10–500$5–200 (GPU)
Evaluation10–20 Stunden10–20 Stunden
Infrastructure Setup10–30 Stunden
Gesamt~$2.000–5.000~$3.000–8.000

Laufende Kosten

PostenManagedSelf-hosted
Inference$2–15/1M Tokens$500–3.000/Monat (GPU)
MonitoringInklusive5–10 Stunden/Monat
Re-Training$10–500/Quartal$5–200/Quartal
Maintenance10–20 Stunden/Monat

Alternativen prüfen

Bevor Sie Fine-Tuning starten, prüfen Sie günstigere Alternativen:

1. Besseres Prompting

  • Kosten: 0 € (nur Zeit)
  • Potenzial: Oft 80 % der gewünschten Verbesserung
  • Zeitaufwand: 1–2 Tage

2. RAG

  • Kosten: $50–500/Monat (Vektor-DB + Embeddings)
  • Potenzial: Ideal für Faktenwissen
  • Zeitaufwand: 1–2 Wochen

3. Modell-Wechsel

  • Kosten: Möglicherweise niedriger
  • Potenzial: Neuere Modelle sind oft besser als FT auf älteren
  • Zeitaufwand: 1 Tag

4. Prompt-Caching

  • Kosten: 50–90 % günstiger als Standard-API
  • Potenzial: Bei repetitiven System-Prompts enorm
  • Zeitaufwand: 1 Stunde

Entscheidungs-Checkliste

✅ Fine-Tuning starten wenn:

  • Prompting und RAG wurden getestet und reichen nicht
  • Mindestens 100 qualitative Trainingsbeispiele vorhanden
  • Use Case ist stabil (ändert sich selten)
  • Volumen rechtfertigt die Investition (> 100K Anfragen/Monat)
  • Internes Know-how oder Budget für externen Support vorhanden
  • Evaluation-Plan steht (Metriken, Baselines, Test-Set)

❌ Fine-Tuning vermeiden wenn:

  • Prompting liefert > 90 % der gewünschten Qualität
  • Use Case ändert sich häufig
  • Wenig Trainings-Daten verfügbar
  • Kein Budget für laufende Maintenance

Praxis-Tipp: Erstellen Sie eine einfache Tabelle: Kosten für 12 Monate (FT vs. Prompting vs. RAG) × erwartete Qualitätsverbesserung. Die Entscheidung wird meist eindeutig, wenn man die Zahlen sieht.

📝

Quiz

Frage 1 von 3

Ab welchem monatlichen Anfragevolumen lohnt sich Fine-Tuning typischerweise?