11 天前

用于唇读的自适应语义-时空图卷积网络

{Li Liu, Matti Pietikäinen, Huiying Xu, Xinzhong Zhu, Changchong Sheng}
摘要

本研究的目标是在未提供音频的情况下,仅通过说话人脸的视频来识别其说出的词汇、短语和句子。当前基于深度学习的唇读方法主要聚焦于视频的外观特征与光流信息的挖掘。然而,这些方法并未充分挖掘唇部运动的内在特性。除了外观和光流信息外,口部轮廓的形变通常也蕴含着与前者互补的重要信息,但相较于外观和光流建模,动态口部轮廓的建模至今仍鲜受关注。为此,本文提出一种新型动态口部轮廓建模方法——自适应语义-时空图卷积网络(Adaptive Semantic-Spatio-Temporal Graph Convolution Network, ASST-GCN),通过自动从视频中学习空间与时间维度的特征,超越现有方法的局限性。为进一步融合外观信息与口部轮廓信息的互补优势,本文设计了一种双流视觉前端网络。实验结果表明,所提出的方法在多个大规模唇读基准数据集上显著优于当前最先进的唇读技术。

用于唇读的自适应语义-时空图卷积网络 | 最新论文 | HyperAI超神经