17 天前
HyPoradise:基于大语言模型的生成式语音识别开放基准
Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi, Pin-Yu Chen, Eng Siong Chng

摘要
深度神经网络的进展使得自动语音识别(ASR)系统在多个公开可用的纯净语音数据集上达到了与人类相当的性能水平。然而,即使最先进的ASR系统在面对噪声等不利条件时,仍会出现性能下降,这是因为经过充分训练的声学模型对语音领域的变化(如背景噪声)极为敏感。直观上,人类通过依赖语言知识来应对这一问题:模糊语音词汇的语义通常可通过上下文线索推断,从而降低对听觉系统的依赖。受此启发,我们提出了首个开源基准,用于利用外部大语言模型(LLMs)进行ASR错误纠正。该方法通过N-best解码候选序列提供丰富的信息,以预测准确的转录结果。这一策略标志着范式转变——与传统语言模型重排序方法(仅能从候选中选择单一最优结果)不同,本方法能够基于多个候选进行更灵活、更全面的纠错。所提出的基准包含一个新型数据集HyPoradise(HP),涵盖超过33.4万个N-best候选序列与其对应准确转录对,覆盖多种主流语音应用场景。基于该数据集,我们评估了三种不同规模标注数据下的LLM驱动错误纠正技术,均取得了显著的词错误率(WER)降低效果。实验结果表明,该方法实现了突破性进展,超越了传统重排序方法的性能上限。更令人惊讶的是,经过合理提示(prompt)设计并具备生成能力的大语言模型,甚至能够纠正那些未出现在N-best候选列表中的缺失词。我们已公开所有实验结果及预训练模型,支持可复现的处理流程,为基于LLM的ASR错误纠正研究提供了一种全新的评估范式。