6 个月前

摘要

近年来，深度学习的快速发展极大地激发了研究者在视觉语音识别（Visual Speech Recognition, VSR）领域的兴趣。目前，大多数现有方法将VSR等同于自动唇读技术，即通过分析唇部运动来识别语音内容。然而，人类经验与心理学研究表明，在面对面交流过程中，人们并不会始终将视线聚焦于对方的嘴唇，而是会反复扫描整个面部区域。这一现象启发我们重新审视一个基础但常被忽视的问题：视觉语音识别模型是否能够从唇部以外的面部区域（即“口外面部区域”）中获益？本文开展了一项全面的研究，评估了不同面部区域在当前最先进的VSR模型中的作用，涵盖唇部、整个面部、上半面部乃至脸颊等区域。实验在具有不同特性的词级与句级基准数据集上进行。研究发现，尽管数据存在复杂的变异，但引入口外面部区域的信息——甚至包括上半面部——始终能够稳定提升VSR的性能表现。此外，我们提出一种简单而有效的方法，基于Cutout策略，以增强模型对不同面部区域中判别性特征的学习能力，旨在最大限度地挖掘各面部区域所蕴含的信息价值。实验结果表明，相较于仅以唇部区域作为输入的现有最先进方法，本方法在多个任务上均取得了显著的性能提升。我们相信，这一成果将为视觉语音识别领域带来新的、富有启发性的研究视角。

源 PDF 查看代码