
摘要
唇读旨在通过分析视频中说话人的唇部运动来识别语音内容。这是一项具有挑战性的任务,因为存在同音异义词——这些词涉及相同的或高度相似的唇部运动,同时不同说话人的唇部外观和运动模式也各不相同。为了解决这些挑战,我们提出了一种新颖的唇读模型,该模型通过多粒度时空建模捕捉说话过程中的词汇细微差别以及不同说话人的风格特征。具体而言,我们首先通过视觉前端提取帧级别的细粒度特征和短时间内的中粒度特征,然后将这些特征结合起来以获得对具有相似音素的词汇的判别表示。接下来,增强时间注意力机制的双向ConvLSTM汇聚整个输入序列中的时空信息,预期能够捕捉每个词汇的粗粒度模式,并在说话人身份、光照条件等不同情况下保持鲁棒性。通过在一个统一框架内充分利用不同层次的信息,该模型不仅能够区分发音相似的词汇,还能够在外观变化方面表现出较强的鲁棒性。我们在两个具有挑战性的词级唇读基准数据集上评估了我们的方法,并展示了所提方法的有效性,进一步验证了上述观点。