9 天前

用于连续手语识别的自强调网络

Lianyu Hu, Liqing Gao, Zekang liu, Wei Feng
用于连续手语识别的自强调网络
摘要

手部与面部在手语表达中起着至关重要的作用,其特征通常被重点利用以提升系统性能。然而,为了有效提取视觉表征并捕捉手部与面部的运动轨迹,以往的方法往往伴随着高昂的计算开销和复杂的训练过程。这些方法通常依赖额外的重型姿态估计网络来定位人体关键点,或依赖预先提取的热力图进行监督,导致资源消耗巨大。为缓解这一问题,本文提出一种自强调网络(Self-emphasizing Network, SEN),以自驱动的方式突出具有信息量的空间区域,仅引入极少的额外计算开销,且无需依赖昂贵的额外监督信号。具体而言,SEN首先通过一个轻量级子网络融合局部时空特征,识别出关键信息区域,随后利用注意力图动态增强原始特征。此外,我们观察到并非所有帧对识别任务的贡献均等。为此,我们进一步设计了时间自强调模块,能够自适应地增强具有判别性的关键帧,同时抑制冗余帧。在与采用手部和面部特征的现有方法进行的全面对比中,我们的方法展现出显著优势,尽管后者通常需要巨大的计算资源并依赖昂贵的辅助监督。值得注意的是,SEN仅引入极少量额外计算,在四个大规模手语识别数据集(PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL)上均取得了新的最先进性能。可视化结果进一步验证了SEN在增强关键时空特征方面的有效性。代码已开源,地址为:https://github.com/hulianyuyy/SEN_CSLR。

用于连续手语识别的自强调网络 | 最新论文 | HyperAI超神经