HyperAIHyperAI

Command Palette

Search for a command to run...

Seed-ASR: Verständnis vielfältiger Sprache und Kontexte mit LLM-basierter Spracherkennung

Zusammenfassung

Moderne automatische Spracherkennungsmodelle (ASR) müssen in verschiedenen Anwendungsszenarien unter Berücksichtigung spezifischer Kontextinformationen präzise Transkriptionen vielfältiger Sprachsignale (aus unterschiedlichen Domänen, Sprachen, Akzenten usw.) liefern. Klassische End-to-End-Modelle, die mit zusätzlichen Sprachmodellen kombiniert werden, erzielen gute Ergebnisse, insbesondere in datenkonformen Szenarien, nähern sich jedoch zunehmend einem Leistungsbottleneck an. In dieser Arbeit stellen wir Seed-ASR vor, ein auf einem großen Sprachmodell (LLM) basierendes Spracherkennungsmodell. Seed-ASR basiert auf dem Rahmenwerk eines audio-konditionierten großen Sprachmodells (AcLLM) und nutzt die Fähigkeiten von LLMs, indem kontinuierliche Sprachrepräsentationen gemeinsam mit Kontextinformationen als Eingabe an das LLM gelangen. Durch eine stufenweise großskalige Trainingsstrategie und die gezielte Entwicklung kontextbewusster Fähigkeiten im LLM zeigt Seed-ASR im Vergleich zu klassischen End-to-End-Modellen eine signifikante Verbesserung auf umfassenden Evaluierungssätzen, die mehrere Domänen, Akzente/Dialekte und Sprachen umfassen. Zudem kann Seed-ASR problemlos in unterschiedlichen Szenarien zur Unterstützung spezifischer Anforderungen eingesetzt werden, ohne dass zusätzliche Sprachmodelle erforderlich sind. Im Vergleich zu kürzlich veröffentlichten großen ASR-Modellen erreicht Seed-ASR eine Reduktion der Wortfehlerquote (bzw. Zeichenfehlerquote bei Chinesisch) um 10 % bis 40 % auf öffentlichen Testsets für Chinesisch und Englisch, was seine herausragende Leistungsfähigkeit eindrucksvoll unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Seed-ASR: Verständnis vielfältiger Sprache und Kontexte mit LLM-basierter Spracherkennung | Paper | HyperAI