9 天前

我们能否超越唇部读取语音?重新思考深度视觉语音识别中的RoI选择

Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, Xilin Chen
我们能否超越唇部读取语音?重新思考深度视觉语音识别中的RoI选择
摘要

近年来,深度学习的快速发展极大地激发了研究者在视觉语音识别(Visual Speech Recognition, VSR)领域的兴趣。目前,大多数现有方法将VSR等同于自动唇读技术,即通过分析唇部运动来识别语音内容。然而,人类经验与心理学研究表明,在面对面交流过程中,人们并不会始终将视线聚焦于对方的嘴唇,而是会反复扫描整个面部区域。这一现象启发我们重新审视一个基础但常被忽视的问题:视觉语音识别模型是否能够从唇部以外的面部区域(即“口外面部区域”)中获益?本文开展了一项全面的研究,评估了不同面部区域在当前最先进的VSR模型中的作用,涵盖唇部、整个面部、上半面部乃至脸颊等区域。实验在具有不同特性的词级与句级基准数据集上进行。研究发现,尽管数据存在复杂的变异,但引入口外面部区域的信息——甚至包括上半面部——始终能够稳定提升VSR的性能表现。此外,我们提出一种简单而有效的方法,基于Cutout策略,以增强模型对不同面部区域中判别性特征的学习能力,旨在最大限度地挖掘各面部区域所蕴含的信息价值。实验结果表明,相较于仅以唇部区域作为输入的现有最先进方法,本方法在多个任务上均取得了显著的性能提升。我们相信,这一成果将为视觉语音识别领域带来新的、富有启发性的研究视角。