17 天前
视觉语音识别的另一视角
{Frederic Precioso, Charles Bouveyron, Giacomo Valenti, Laurent Pilati, Baptiste Pouthier}

摘要
标准视觉语音识别(Visual Speech Recognition, VSR)系统直接以图像作为输入特征,而无需预先建立原始像素数据与面部特征之间的关联。在图像中提取面部关键点后,这些关键点被重新用作图结构中的节点,从而实现对像素信息的智能筛选。这些关键点随时间的演变过程则通过图卷积网络(Graph Convolutional Network, GCN)进行建模。然而,由于基于图的VSR技术尚处于发展初期,关键点的选择及其相互关系仍缺乏明确的定义,通常依赖于先验知识和人工设计的方法。本文针对VSR中的图建模方法展开研究,重点探讨其在捕捉口部区域以外关键点之间关联能力方面的潜力。同时,我们系统分析了面部不同区域对系统识别精度的贡献,结果表明:尽管节点分布更为分散,但若具有更强的连接性,此类图结构不仅计算开销更低,还能实现更高的识别准确率。