2 个月前
为时未晚:将声学信息融合到大型语言模型中以实现自动语音识别
Chen Chen; Ruizhe Li; Yuchen Hu; Sabato Marco Siniscalchi; Pin-Yu Chen; Ensiong Chng; Chao-Han Huck Yang

摘要
近期的研究成功证明了大型语言模型(LLMs)可以有效地用于自动语音识别(ASR)输出上的生成错误校正(GER)。具体而言,LLM 被用来直接从 ASR 系统生成的最佳 N 个假设列表中映射到预测的输出转录。然而,尽管其效果显著,GER 引入了额外的数据不确定性,因为 LLM 在训练过程中并未考虑语音信号中的声学信息。在本研究中,我们旨在通过一种新颖的后期融合解决方案——不确定性感知动态融合(Uncertainty-Aware Dynamic Fusion, UADF)来克服这一限制。UADF 是一种多模态融合方法,集成到自回归解码过程中,并分为两个阶段:(i) 首先分析和校准词元级别的 LLM 决策;(ii) 然后动态地整合来自声学模态的信息。实验结果表明,UADF 在多个 ASR 任务中超越了现有的融合机制。它不仅显著降低了词错误率(WER),还减轻了 LLM 中的数据不确定性问题,并解决了单一模态在融合过程中的泛化能力不足的问题。此外,我们还展示了 UADF 能够无缝适应视听语音识别。