Lektion 2 von 5·11 Min Lesezeit

Multi-Voice Systeme

In komplexen Enterprise-Szenarien reicht eine einzige Stimme nicht aus. Multi-Voice-Systeme setzen mehrere distinkte Stimmen ein — für verschiedene Abteilungen, Charaktere oder Sprachen. Die Herausforderung: Konsistenz, Routing und nahtlose Übergänge.

Mehrere distinkte Agent-Stimmen

Warum Multi-Voice?

  • Abteilungserkennung: Kunden erkennen am Klang, ob sie beim Vertrieb, Support oder der Buchhaltung sind
  • Markenidentität: Verschiedene Produktlinien → verschiedene Stimmen
  • Sprachdiversität: Deutsch, Englisch, Französisch — jede Sprache mit muttersprachlicher Stimme
  • Persönlichkeit: Verschiedene Agent-Personas für verschiedene Anliegen

Stimmen-Portfolio erstellen

AgentAbteilungStimmeEigenschaften
SophiaVertriebWeiblich, 30erWarm, enthusiastisch, überzeugend
MaxTechnik-SupportMännlich, 40erRuhig, geduldig, technisch kompetent
ElenaBuchhaltungWeiblich, 50erProfessionell, präzise, vertrauenswürdig
KaiOnboardingMännlich, 20erFreundlich, locker, zugänglich
SystemIVR/RoutingNeutralKlar, sachlich, keine Emotion

Implementation

const voiceAgents = {
  sales: {
    voiceId: 'sophia-voice-id',
    systemPrompt: 'Du bist Sophia, unsere Vertriebsberaterin...',
    tools: ['check_pricing', 'schedule_demo', 'send_proposal'],
  },
  support: {
    voiceId: 'max-voice-id',
    systemPrompt: 'Du bist Max, unser technischer Support...',
    tools: ['check_ticket', 'remote_diagnostics', 'escalate'],
  },
  billing: {
    voiceId: 'elena-voice-id',
    systemPrompt: 'Du bist Elena, unsere Buchhaltungs-Spezialistin...',
    tools: ['check_invoice', 'process_refund', 'update_payment'],
  },
}

Voice Routing

Intelligentes Routing

Voice Routing bestimmt, welche Stimme der Nutzer hört — basierend auf Kontext:

Eingehender Anruf
  ↓
Begrüßung (System-Stimme)
  ↓
Intent-Erkennung: "Was kann ich für Sie tun?"
  ↓
├── "Ich möchte etwas kaufen" → Sophia (Vertrieb)
├── "Mein Internet geht nicht" → Max (Support)
├── "Ich habe eine Frage zur Rechnung" → Elena (Buchhaltung)
└── "Ich bin neu bei Ihnen" → Kai (Onboarding)

Routing-Regeln

KriteriumBeispielVoice Agent
IntentKaufinteresseSophia (Vertrieb)
SpracheEnglisch erkanntEnglish-Voice Agent
KundenstatusEnterprise-KundeSenior Agent (Premium-Stimme)
TageszeitNach 18 UhrAfter-Hours Agent
EskalationWiederholter AnrufErfahrener Agent

Character-Based Voice Assignment

Konsistenz über Sessions

Ein Kunde sollte immer die gleiche Stimme hören, wenn er mit der gleichen Abteilung spricht:

async function getVoiceForCustomer(customerId: string, department: string) {
  // Prüfe, ob Kunde bereits einen zugewiesenen Agent hat
  const assignment = await db.voiceAssignments.findOne({
    customerId,
    department,
  })

  if (assignment) {
    return assignment.voiceId // Bekannte Stimme
  }

  // Neuzuweisung basierend auf Verfügbarkeit und Kundenprofil
  const voiceId = await selectBestVoice(customerId, department)
  await db.voiceAssignments.create({ customerId, department, voiceId })
  return voiceId
}

Voice Consistency Rules

  • Gleicher Kunde → Gleiche Stimme (innerhalb einer Abteilung)
  • Gleiche Marke → Gleicher Stimm-Stil (über alle Kontaktpunkte)
  • Sprachenwechsel: Gleiche Klangfarbe, andere Sprache
  • Emotionale Konsistenz: Der Agent klingt immer wie "die gleiche Person"

Voice Consistency Management

Die Herausforderung

ElevenLabs-Stimmen können bei verschiedenen Texten leicht unterschiedlich klingen. Für Enterprise-Einsatz muss die Konsistenz garantiert werden:

Strategien für Konsistenz

1. Voice Settings standardisieren:

{
  "stability": 0.65,
  "similarity_boost": 0.80,
  "style": 0.20,
  "use_speaker_boost": true
}

2. Prompt-Konsistenz:

  • Gleicher System-Prompt → ähnlicher Output-Stil
  • Anweisungen für Tonalität im Prompt verankern
  • Beispiel-Dialoge im Prompt als Referenz

3. Audio-Postprocessing:

  • Lautstärke normalisieren (LUFS-Standard: -16 LUFS für Telefonie)
  • Equalizer-Preset pro Stimme (gleicher Klangcharakter)
  • Rauschunterdrückung bei Telefonie-Qualität

Monitoring

MetrikZielwertTool
Speaker Similarity> 0.90Resemblyzer
MOS (Mean Opinion Score)> 4.0/5Stichproben-Tests
Latenz TTS< 400 msAPI-Monitoring
Audio-Qualität> 3.5 PESQAutomatisierte Tests

Praxis-Tipp: Erstellen Sie ein "Voice Style Guide" — ähnlich einem Brand Style Guide, aber für Stimmen. Definieren Sie für jeden Agent: Stimme, Settings, Tonalität, Do's und Don'ts. Teilen Sie es mit allen Entwicklern und Stakeholdern.