2 个月前
构象体是视觉语音识别所需的一切
Chang, Oscar ; Liao, Hank ; Serdyuk, Dmitriy ; Shah, Ankit ; Siohan, Olivier

摘要
视觉语音识别模型以层次化的方式提取视觉特征。在较低层级,存在一个具有有限时间感受野的视觉前端,用于处理描绘嘴唇或面部的原始像素。在较高层级,则有一个编码器,它在一个较大的时间感受野上关注由前端生成的嵌入向量。以往的研究主要集中在改进模型的视觉前端,以提取对语音识别更有用的特征。令人惊讶的是,我们的研究显示复杂的视觉前端并非必要。与其将资源投入到复杂的视觉前端,我们发现线性的视觉前端与更大规模的Conformer编码器相结合可以实现更低的延迟、更高效的内存使用以及更好的词错误率(WER)性能。我们在TED LRS3数据集上的视觉语音识别任务中达到了12.8%的WER新纪录,这一成绩可与四年前仅依赖音频的模型相媲美。