Embeddings und Vektor-Datenbanken

Embeddings sind das Herzstück jeder RAG-Pipeline. Sie verwandeln Text in numerische Vektoren, die semantische Ähnlichkeit abbilden. Zwei Sätze mit gleicher Bedeutung, aber unterschiedlichen Worten, liegen im Vektorraum nahe beieinander.

Wie funktionieren Embeddings?

Ein Embedding-Modell wandelt Text in einen hochdimensionalen Vektor um (typisch: 768–3072 Dimensionen). Die Ähnlichkeit zweier Texte wird über die Kosinus-Distanz ihrer Vektoren gemessen.

Beispiel:

„Wie kündige ich mein Abo?" → Vektor A
„Ich möchte mein Abonnement beenden" → Vektor B
Kosinus-Ähnlichkeit(A, B) ≈ 0,94 (sehr ähnlich)

Beliebte Embedding-Modelle (2026)

Modell	Anbieter	Dimensionen	Besonderheit
text-embedding-3-large	OpenAI	3072	Bester Allrounder
voyage-3	Anthropic/Voyage	1024	Stark für Code + Text
BGE-M3	BAAI	1024	Open Source, multilingual
Cohere Embed v4	Cohere	1024	Multimodal (Text + Bild)

Vektor-Datenbanken

Eine Vektor-Datenbank speichert Embeddings und ermöglicht schnelle Ähnlichkeitssuche (Approximate Nearest Neighbor — ANN).

Optionen im Vergleich

Lösung	Typ	Skalierung	Best für
Pinecone	Managed Cloud	Automatisch	Schneller Start, Production
Weaviate	Self-hosted / Cloud	Horizontal	Hybrid-Suche (Vektor + Keyword)
pgvector	PostgreSQL-Extension	Vertikal	Bestehende Postgres-Infra
Qdrant	Self-hosted / Cloud	Horizontal	Performance, Filtering
ChromaDB	Embedded	Lokal	Prototyping, kleine Datasets

Semantische Suche vs. Keyword-Suche

Keyword: „Kündigung Abonnement" findet nur Dokumente mit exakt diesen Worten
Semantisch: Findet auch „Vertrag beenden", „Mitgliedschaft stoppen", „Abo auflösen"

Hybrid-Ansatz: Die meisten produktiven Systeme kombinieren beides. Weaviate und Elasticsearch bieten native Hybrid-Suche.

Praxis-Tipp: Starten Sie mit pgvector, wenn Sie bereits PostgreSQL nutzen. Für Prototypen reicht ChromaDB. Wechseln Sie zu Pinecone oder Qdrant, wenn Sie über 1 Million Vektoren skalieren müssen.