Kosten-Nutzen-Analyse

Lektion 5 von 5·8 Min Lesezeit

Fine-Tuning kann sich rechnen — oder ein teures Experiment bleiben. Dieser Guide hilft Ihnen, die Total Cost of Ownership (TCO) realistisch zu kalkulieren und die richtige Entscheidung zu treffen.

Wann sich Fine-Tuning rechnet

Die Break-Even-Formel

Monatliche Ersparnis = (Kosten_BaseModel × Anfragen) - (Kosten_FT_Model × Anfragen)
Amortisation = Einmalige_FT_Kosten / Monatliche_Ersparnis

Beispiel:

GPT-4o: $5/1M Output-Tokens × 10M Tokens/Monat = $50/Monat
Fine-Tuned GPT-4o-mini: $2/1M × 10M = $20/Monat + $100 Training
Ersparnis: $30/Monat → Break-Even nach 3,3 Monaten ✅

Wann es sich NICHT rechnet

Weniger als 100.000 Anfragen pro Monat (zu wenig Volumen)
Use Case ändert sich häufig (ständiges Re-Training)
Prompting/RAG liefert bereits 90 %+ Qualität
Kein internes ML-Know-how vorhanden

Total Cost of Ownership (TCO)

Einmalige Kosten

Posten	Managed (OpenAI)	Open Source
Daten-Vorbereitung	20–40 Stunden	20–40 Stunden
Training	$10–500	$5–200 (GPU)
Evaluation	10–20 Stunden	10–20 Stunden
Infrastructure Setup	—	10–30 Stunden
Gesamt	~$2.000–5.000	~$3.000–8.000

Laufende Kosten

Posten	Managed	Self-hosted
Inference	$2–15/1M Tokens	$500–3.000/Monat (GPU)
Monitoring	Inklusive	5–10 Stunden/Monat
Re-Training	$10–500/Quartal	$5–200/Quartal
Maintenance	—	10–20 Stunden/Monat

Alternativen prüfen

Bevor Sie Fine-Tuning starten, prüfen Sie günstigere Alternativen:

1. Besseres Prompting

Kosten: 0 € (nur Zeit)
Potenzial: Oft 80 % der gewünschten Verbesserung
Zeitaufwand: 1–2 Tage

2. RAG

Kosten: $50–500/Monat (Vektor-DB + Embeddings)
Potenzial: Ideal für Faktenwissen
Zeitaufwand: 1–2 Wochen

3. Modell-Wechsel

Kosten: Möglicherweise niedriger
Potenzial: Neuere Modelle sind oft besser als FT auf älteren
Zeitaufwand: 1 Tag

4. Prompt-Caching

Kosten: 50–90 % günstiger als Standard-API
Potenzial: Bei repetitiven System-Prompts enorm
Zeitaufwand: 1 Stunde

Entscheidungs-Checkliste

✅ Fine-Tuning starten wenn:

Prompting und RAG wurden getestet und reichen nicht
Mindestens 100 qualitative Trainingsbeispiele vorhanden
Use Case ist stabil (ändert sich selten)
Volumen rechtfertigt die Investition (> 100K Anfragen/Monat)
Internes Know-how oder Budget für externen Support vorhanden
Evaluation-Plan steht (Metriken, Baselines, Test-Set)

❌ Fine-Tuning vermeiden wenn:

Prompting liefert > 90 % der gewünschten Qualität
Use Case ändert sich häufig
Wenig Trainings-Daten verfügbar
Kein Budget für laufende Maintenance

Praxis-Tipp: Erstellen Sie eine einfache Tabelle: Kosten für 12 Monate (FT vs. Prompting vs. RAG) × erwartete Qualitätsverbesserung. Die Entscheidung wird meist eindeutig, wenn man die Zahlen sieht.

📝

Quiz

Frage 1 von 3

Ab welchem monatlichen Anfragevolumen lohnt sich Fine-Tuning typischerweise?

Vorherige LektionVorherige Lektion Zurück zum Kurs