17 天前
SPGI语音:5,000小时带转录的金融音频,用于完整格式化的端到端语音识别
Patrick K. O', Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, Georg Kucsko

摘要
在英语语音转文本(Speech-to-Text, STT)的机器学习任务中,声学模型传统上在未经大小写区分的拉丁字母上进行训练,而必要的正字法处理(如首字母大写、标点符号添加以及非标准词汇的规范化)则依赖于独立的后处理模型完成。这一方法增加了系统复杂性,并限制了整体性能,因为许多格式化任务本可从声学信号中蕴含的语义信息中获益,而这些信息在纯文本转录中往往缺失。为此,本文提出一种新型的STT任务:端到端神经转录,目标标签为完整格式化的文本输出。我们构建了基于Conformer架构的基线模型,该模型在包含5000小时专业转录的财报电话会议语料库上进行训练,取得了1.7%的字符错误率(CER)。作为对STT研究社区的贡献,我们已将该语料库免费开放用于非商业用途,访问地址为:https://datasets.kensho.com/datasets/scribe。