Sprach-ASR bei Code-Switching
Eine aktuelle Studie untersucht, wie moderne automatische Spracherkennungssysteme bei der Verarbeitung von Code-Switching in mehrsprachigen Kundendiensten abschneiden. Da weltweit mehr als die Hälfte der Bevölkerung zweisprachig auftritt und im Gesprächsfaden nahtlos zwischen Sprachen wechselt, stellt dies für Contact-Center-Systeme eine erhebliche technische Hürde dar. Transkriptionsfehler wirken sich hierbei kaskadierend auf nachgelagerte Verarbeitungsschritte aus. Um diese Lücke zu schließen, wurde ein proprietärer Benchmark mit Fokus auf die Sprachpaare Spanisch-Englisch, Französisch-Englisch, Kanadisch-Französisch-Englisch sowie Deutsch-Englisch entwickelt. Die Datenbasis umfasst Personalverwaltung- und IT-Support-Szenarien. Die Erzeugung erfolgte durch linguistisch gesteuerte Large-Language-Model-Generierung, audioviale Synthese und mehrstufige Prüfung muttersprachlicher Linguisten. Die Evaluierung erfolgt mittels Word Error Rate, Semantic Word Error Rate und Answer Error Rate, um sowohl exakte Wortübereinstimmungen als auch semantische Integrität und Downstream-Performance zu messen. Getestet wurden sieben Systeme, darunter ElevenLabs Scribe V2, Google Gemini 3 Flash, AssemblyAI Universal 3-Pro, Deepgram Nova-3, Mistral Voxtral, Nvidia Parakeet sowie OpenAI Whisper Large V3 Turbo. Die Ergebnisse identifizieren Scribe V2, Gemini 3 Flash und AssemblyAI Universal 3-Pro als klare Marktführer. Sie erzielen die niedrigsten Fehlerquoten und weisen eine hohe Robustheit auf. Ein signifikanter Performanzabfall zeichnet sich bei Whisper ab, dessen Architektur bei Code-Switching standardmäßig in englischsprachige Übersetzung umschaltet und dadurch den originalen Sprachkontext verfälscht. Der zusätzliche Transkriptionsaufwand durch Code-Switching variiert stark. Die Spitzenmodelle verzeichnen im Vergleich zu monolingualen Baseline-Tests nur minimale Performanceeinbußen. Niedrig eingestufte Systeme degenerieren hingegen deutlich stärker, was belegt, dass Code-Switching primär die architektonische Robustheit der Modelle offenlegt und nicht pauschal die Transkriptionsschwierigkeit erhöht. Statistisch analysiert steigt die Wahrscheinlichkeit für Transkriptionsfehler linear mit der Anzahl der Sprachwechsel pro Äußerung. Die Schwere der Fehler korreliert hingegen mit dem Code-Mixing-Index, also der Dichte der eingebetteten Sprache. Eine auffällige Beobachtung betrifft die Fehlerverteilung: entgegen der Erwartung häufen sich Transkriptionsfehler in den englischsprachigen Segmenten der Äußerungen, nicht an den eigentlichen Wechselstellen. Experten führen dies auf komplexe technische Terminologie in den eingebetteten Abschnitten sowie auf den kognitiven Umstellungsbedarf der Modelle beim Registerwechsel innerhalb einer Äußerung zurück. Für den Enterprise-Einsatz folgt daraus eine klare Handlungsempfehlung: Die Wahl des ASR-Providers darf nicht pauschal erfolgen, sondern muss auf die tatsächlich gesprochenen Sprachkombinationen abgestimmt werden. Während moderne Frontier-Modelle Code-Switching zunehmend als Standardbedingung bewältigen, bleiben signifikante Unterschiede zwischen den Sprachpaaren bestehen. Unternehmen, die diese Benchmark-Erkenntnisse in ihre Infrastrukturplanung einbeziehen, können mehrsprachige Kundenbeziehungen nahtlos und fehlerfrei digitalisieren.
