Embeddings sind das Herzstück jeder RAG-Pipeline. Sie verwandeln Text in numerische Vektoren, die semantische Ähnlichkeit abbilden. Zwei Sätze mit gleicher Bedeutung, aber unterschiedlichen Worten, liegen im Vektorraum nahe beieinander.
Ein Embedding-Modell wandelt Text in einen hochdimensionalen Vektor um (typisch: 768–3072 Dimensionen). Die Ähnlichkeit zweier Texte wird über die Kosinus-Distanz ihrer Vektoren gemessen.
Beispiel:
| Modell | Anbieter | Dimensionen | Besonderheit |
|---|---|---|---|
| text-embedding-3-large | OpenAI | 3072 | Bester Allrounder |
| voyage-3 | Anthropic/Voyage | 1024 | Stark für Code + Text |
| BGE-M3 | BAAI | 1024 | Open Source, multilingual |
| Cohere Embed v4 | Cohere | 1024 | Multimodal (Text + Bild) |
Eine Vektor-Datenbank speichert Embeddings und ermöglicht schnelle Ähnlichkeitssuche (Approximate Nearest Neighbor — ANN).
| Lösung | Typ | Skalierung | Best für |
|---|---|---|---|
| Pinecone | Managed Cloud | Automatisch | Schneller Start, Production |
| Weaviate | Self-hosted / Cloud | Horizontal | Hybrid-Suche (Vektor + Keyword) |
| pgvector | PostgreSQL-Extension | Vertikal | Bestehende Postgres-Infra |
| Qdrant | Self-hosted / Cloud | Horizontal | Performance, Filtering |
| ChromaDB | Embedded | Lokal | Prototyping, kleine Datasets |
Hybrid-Ansatz: Die meisten produktiven Systeme kombinieren beides. Weaviate und Elasticsearch bieten native Hybrid-Suche.
Praxis-Tipp: Starten Sie mit pgvector, wenn Sie bereits PostgreSQL nutzen. Für Prototypen reicht ChromaDB. Wechseln Sie zu Pinecone oder Qdrant, wenn Sie über 1 Million Vektoren skalieren müssen.