17 天前

Seed-ASR:基于LLM的语音识别理解多样化的语音与上下文

Ye Bai, Jingping Chen, Jitong Chen, Wei Chen, Zhuo Chen, Chuang Ding, Linhao Dong, Qianqian Dong, Yujiao Du, Kepan Gao, Lu Gao, Yi Guo, Minglun Han, Ting Han, Wenchao Hu, Xinying Hu, Yuxiang Hu, Deyu Hua, Lu Huang, Mingkun Huang, Youjia Huang, Jishuo Jin, Fanliu Kong, Zongwei Lan, Tianyu Li, Xiaoyang Li, Zeyang Li, Zehua Lin, Rui Liu, Shouda Liu, Lu Lu, Yizhou Lu, Jingting Ma, Shengtao Ma, Yulin Pei, Chen Shen, Tian Tan, Xiaogang Tian, Ming Tu, Bo Wang, Hao Wang, Yuping Wang, Yuxuan Wang, Hanzhang Xia, Rui Xia, Shuangyi Xie, Hongmin Xu, Meng Yang, Bihong Zhang, Jun Zhang, Wanyi Zhang, Yang Zhang, Yawei Zhang, Yijie Zheng, Ming Zou
Seed-ASR:基于LLM的语音识别理解多样化的语音与上下文
摘要

现代自动语音识别(ASR)模型需在不同应用场景下,基于特定上下文信息,准确转录来自多种领域、语言及口音的多样化语音信号。传统的端到端模型虽通过融合外部语言模型取得了良好效果,但主要局限于数据匹配场景,性能提升已逐渐接近瓶颈。本文提出Seed-ASR,一种基于大语言模型(LLM)的语音识别框架。Seed-ASR基于音频条件大语言模型(AcLLM)架构,通过将连续的语音表征与上下文信息一同输入LLM,充分发挥大语言模型在语义理解与上下文建模方面的优势。经过分阶段的大规模训练,并有效激发LLM的上下文感知能力,Seed-ASR在涵盖多领域、多口音/方言及多语言的综合评估集上,显著优于传统端到端模型。此外,Seed-ASR可直接部署于各类具体应用场景中,无需额外依赖语言模型即可满足特定需求。相较于近期发布的大型ASR模型,Seed-ASR在中英文公开测试集上分别实现了10%至40%的词错误率(中文为字符错误率)降低,充分展现了其卓越的性能表现。