vor 17 Tagen

Seed-ASR: Verständnis vielfältiger Sprache und Kontexte mit LLM-basierter Spracherkennung

Ye Bai, Jingping Chen, Jitong Chen, Wei Chen, Zhuo Chen, Chuang Ding, Linhao Dong, Qianqian Dong, Yujiao Du, Kepan Gao, Lu Gao, Yi Guo, Minglun Han, Ting Han, Wenchao Hu, Xinying Hu, Yuxiang Hu, Deyu Hua, Lu Huang, Mingkun Huang, Youjia Huang, Jishuo Jin, Fanliu Kong, Zongwei Lan, Tianyu Li, Xiaoyang Li, Zeyang Li, Zehua Lin, Rui Liu, Shouda Liu, Lu Lu, Yizhou Lu, Jingting Ma, Shengtao Ma, Yulin Pei, Chen Shen, Tian Tan, Xiaogang Tian, Ming Tu, Bo Wang, Hao Wang, Yuping Wang, Yuxuan Wang, Hanzhang Xia, Rui Xia, Shuangyi Xie, Hongmin Xu, Meng Yang, Bihong Zhang, Jun Zhang, Wanyi Zhang, Yang Zhang, Yawei Zhang, Yijie Zheng, Ming Zou

Details der Forschungsarbeit anzeigen

Seed-ASR: Verständnis vielfältiger Sprache und Kontexte mit LLM-basierter Spracherkennung

Abstract

Moderne automatische Spracherkennungsmodelle (ASR) müssen in verschiedenen Anwendungsszenarien unter Berücksichtigung spezifischer Kontextinformationen präzise Transkriptionen vielfältiger Sprachsignale (aus unterschiedlichen Domänen, Sprachen, Akzenten usw.) liefern. Klassische End-to-End-Modelle, die mit zusätzlichen Sprachmodellen kombiniert werden, erzielen gute Ergebnisse, insbesondere in datenkonformen Szenarien, nähern sich jedoch zunehmend einem Leistungsbottleneck an. In dieser Arbeit stellen wir Seed-ASR vor, ein auf einem großen Sprachmodell (LLM) basierendes Spracherkennungsmodell. Seed-ASR basiert auf dem Rahmenwerk eines audio-konditionierten großen Sprachmodells (AcLLM) und nutzt die Fähigkeiten von LLMs, indem kontinuierliche Sprachrepräsentationen gemeinsam mit Kontextinformationen als Eingabe an das LLM gelangen. Durch eine stufenweise großskalige Trainingsstrategie und die gezielte Entwicklung kontextbewusster Fähigkeiten im LLM zeigt Seed-ASR im Vergleich zu klassischen End-to-End-Modellen eine signifikante Verbesserung auf umfassenden Evaluierungssätzen, die mehrere Domänen, Akzente/Dialekte und Sprachen umfassen. Zudem kann Seed-ASR problemlos in unterschiedlichen Szenarien zur Unterstützung spezifischer Anforderungen eingesetzt werden, ohne dass zusätzliche Sprachmodelle erforderlich sind. Im Vergleich zu kürzlich veröffentlichten großen ASR-Modellen erreicht Seed-ASR eine Reduktion der Wortfehlerquote (bzw. Zeichenfehlerquote bei Chinesisch) um 10 % bis 40 % auf öffentlichen Testsets für Chinesisch und Englisch, was seine herausragende Leistungsfähigkeit eindrucksvoll unterstreicht.