il y a 17 jours

Seed-ASR : Comprendre la parole et les contextes variés grâce à une reconnaissance vocale basée sur les LLM

Ye Bai, Jingping Chen, Jitong Chen, Wei Chen, Zhuo Chen, Chuang Ding, Linhao Dong, Qianqian Dong, Yujiao Du, Kepan Gao, Lu Gao, Yi Guo, Minglun Han, Ting Han, Wenchao Hu, Xinying Hu, Yuxiang Hu, Deyu Hua, Lu Huang, Mingkun Huang, Youjia Huang, Jishuo Jin, Fanliu Kong, Zongwei Lan, Tianyu Li, Xiaoyang Li, Zeyang Li, Zehua Lin, Rui Liu, Shouda Liu, Lu Lu, Yizhou Lu, Jingting Ma, Shengtao Ma, Yulin Pei, Chen Shen, Tian Tan, Xiaogang Tian, Ming Tu, Bo Wang, Hao Wang, Yuping Wang, Yuxuan Wang, Hanzhang Xia, Rui Xia, Shuangyi Xie, Hongmin Xu, Meng Yang, Bihong Zhang, Jun Zhang, Wanyi Zhang, Yang Zhang, Yawei Zhang, Yijie Zheng, Ming Zou

Voir les détails de l'article

Seed-ASR : Comprendre la parole et les contextes variés grâce à une reconnaissance vocale basée sur les LLM

Résumé

Les modèles modernes de reconnaissance automatique de la parole (ASR) doivent être capables de transcrire avec précision des signaux vocaux diversifiés (provenant de différents domaines, langues, accents, etc.) en tenant compte des informations contextuelles spécifiques aux divers scénarios d’application. Bien que les modèles classiques en bout-à-bout, combinés à des modèles de langage supplémentaires, fonctionnent efficacement dans des scénarios où les données sont bien adaptées, leurs performances s’approchent progressivement d’un plafond. Dans ce travail, nous introduisons Seed-ASR, un modèle de reconnaissance de la parole basé sur un grand modèle de langage (LLM). Seed-ASR repose sur le cadre des grands modèles de langage conditionnés par l’audio (AcLLM), en exploitant les capacités des LLM en alimentant le modèle avec des représentations continues de la parole ainsi que des informations contextuelles. Grâce à une formation à grande échelle par étapes et à l’activation de capacités sensibles au contexte au sein des LLM, Seed-ASR montre une amélioration significative par rapport aux modèles en bout-à-bout sur des jeux d’évaluation complets couvrant plusieurs domaines, accents/dialectes et langues. En outre, Seed-ASR peut être déployé de manière plus flexible pour répondre à des besoins spécifiques dans divers contextes sans nécessiter de modèles de langage supplémentaires. Par rapport aux récents grands modèles ASR publiés, Seed-ASR réduit de 10 % à 40 % les taux d’erreur en mots (ou en caractères, pour le chinois) sur des jeux de test publics en chinois et en anglais, démontrant ainsi sa puissance performante.