Seed-ASR: Verständnis vielfältiger Sprache und Kontexte mit LLM-basierter Spracherkennung

Moderne automatische Spracherkennungsmodelle (ASR) müssen in verschiedenen Anwendungsszenarien unter Berücksichtigung spezifischer Kontextinformationen präzise Transkriptionen vielfältiger Sprachsignale (aus unterschiedlichen Domänen, Sprachen, Akzenten usw.) liefern. Klassische End-to-End-Modelle, die mit zusätzlichen Sprachmodellen kombiniert werden, erzielen gute Ergebnisse, insbesondere in datenkonformen Szenarien, nähern sich jedoch zunehmend einem Leistungsbottleneck an. In dieser Arbeit stellen wir Seed-ASR vor, ein auf einem großen Sprachmodell (LLM) basierendes Spracherkennungsmodell. Seed-ASR basiert auf dem Rahmenwerk eines audio-konditionierten großen Sprachmodells (AcLLM) und nutzt die Fähigkeiten von LLMs, indem kontinuierliche Sprachrepräsentationen gemeinsam mit Kontextinformationen als Eingabe an das LLM gelangen. Durch eine stufenweise großskalige Trainingsstrategie und die gezielte Entwicklung kontextbewusster Fähigkeiten im LLM zeigt Seed-ASR im Vergleich zu klassischen End-to-End-Modellen eine signifikante Verbesserung auf umfassenden Evaluierungssätzen, die mehrere Domänen, Akzente/Dialekte und Sprachen umfassen. Zudem kann Seed-ASR problemlos in unterschiedlichen Szenarien zur Unterstützung spezifischer Anforderungen eingesetzt werden, ohne dass zusätzliche Sprachmodelle erforderlich sind. Im Vergleich zu kürzlich veröffentlichten großen ASR-Modellen erreicht Seed-ASR eine Reduktion der Wortfehlerquote (bzw. Zeichenfehlerquote bei Chinesisch) um 10 % bis 40 % auf öffentlichen Testsets für Chinesisch und Englisch, was seine herausragende Leistungsfähigkeit eindrucksvoll unterstreicht.