2 个月前
Whisper-Flamingo:将视觉特征整合到Whisper中以实现视听语音识别和翻译
Andrew Rouditchenko; Yuan Gong; Samuel Thomas; Leonid Karlinsky; Hilde Kuehne; Rogerio Feris; James Glass

摘要
音视频语音识别(AVSR)利用基于唇部的视频来提高在噪声环境中的性能。由于视频比音频更难以获取,AVSR模型的视频训练数据通常仅限于几千小时。相比之下,诸如Whisper之类的语音模型则使用数十万小时的数据进行训练,因此能够学习到更好的语音转文本解码器。巨大的训练数据差异促使我们将Whisper适应为能够处理视频输入的模型。受Flamingo启发,该模型通过门控交叉注意力机制将视觉特征注入语言模型中,我们提出了Whisper-Flamingo,它将视觉特征整合到Whisper语音识别和翻译模型中。我们的模型在LRS3数据集上实现了最先进的自动语音识别(ASR)词错误率(0.68%)和音视频语音识别(AVSR)词错误率(0.76%),在LRS2数据集上也达到了最佳的ASR词错误率(1.3%)和AVSR词错误率(1.4%)。在噪声条件下,音视频Whisper-Flamingo在英语语音识别和六种语言的英-外翻译任务中均优于仅使用音频的Whisper。此外,Whisper-Flamingo具有多功能性,可以使用同一组参数完成所有这些任务,而先前的方法则需要针对每种语言分别进行训练。