GPU-Auswahl und Inference-Kosten
GPUs sind das Herzstück jeder AI-Infrastruktur. Die richtige Wahl entscheidet über Performance, Kosten und Skalierbarkeit Ihrer AI-Anwendungen.
Die GPU-Landschaft 2026
NVIDIA H100 — Der aktuelle Standard
- 80 GB HBM3 Speicher, bis zu 3.958 TFLOPS (FP8)
- Preis: ~30.000–40.000 € pro GPU (Einzelkauf)
- Cloud-Kosten: ~2,50–4,00 €/Stunde (on-demand)
- Ideal für: Inference mittlerer bis großer Modelle (bis 70B Parameter)
NVIDIA H200 — Mehr Speicher, mehr Speed
- 141 GB HBM3e Speicher — fast doppelt so viel wie H100
- 30–40 % schnellere Inference durch höhere Bandbreite
- Preis: ~35.000–50.000 € pro GPU
- Ideal für: Große Modelle (70B+), lange Kontexte, Multi-Modal
NVIDIA B200 (Blackwell) — Next Generation
- 192 GB HBM3e, FP4-Unterstützung für effiziente Inferenz
- Bis zu 2,5x schneller als H100 bei Inference
- Verfügbarkeit: Zunehmend ab Q2 2026
- Ideal für: Wer heute neu investiert und zukunftssicher sein will
Alternativen
- AMD MI300X: 192 GB HBM3, wettbewerbsfähig bei Preis/Leistung
- Google TPU v5p: Optimal für JAX/TensorFlow-Workloads in GCP
- AWS Inferentia2: Günstigste Option für reine Inferenz-Workloads
Inference-Kosten kalkulieren
API-basiert (Managed)
Am einfachsten — Sie zahlen pro Token:
| Modell | Input (1M Token) | Output (1M Token) |
|---|
| GPT-4o | ~2,50 € | ~10,00 € |
| Claude 3.5 Sonnet | ~3,00 € | ~15,00 € |
| Llama 3 70B (hosted) | ~0,60 € | ~0,80 € |
Self-Hosted
Eigene GPU-Infrastruktur — höhere Vorabkosten, aber günstiger bei Volumen:
Kostenberechnung pro Anfrage:
- GPU-Stunde: ~3,00 € (H100 Cloud) oder ~0,80 € (eigene, amortisiert über 3 Jahre)
- Durchsatz: ~50 Anfragen/Sekunde (Llama 70B, optimiert)
- Kosten pro Anfrage: ~0,000016 € (Self-Hosted) vs. ~0,002 € (API)
Optimierungs-Strategien
- Quantisierung: FP16 → INT8 → INT4 reduziert Speicherbedarf um 50–75 %, Latenz um 30–50 %
- Batching: Mehrere Anfragen gleichzeitig verarbeiten — Durchsatz verdreifachen
- Model Distillation: Kleinere Modelle trainieren, die das große Modell imitieren
- vLLM & TensorRT-LLM: Optimierte Inference-Engines mit PagedAttention
Entscheidungshilfe: Unter 10.000 Anfragen/Tag → API. Über 100.000 → Self-Hosted evaluieren. Dazwischen → es kommt auf den Use Case an.