
摘要
人体运动轨迹是视频中识别动作的关键线索。在手语视频中,这种身体轨迹主要通过连续帧间手部与面部的运动来体现。然而,当前连续手语识别(Continuous Sign Language Recognition, CSLR)方法通常独立处理每一帧,难以有效捕捉跨帧的运动轨迹,从而限制了手语的准确识别。为克服这一局限,本文提出相关性网络(CorrNet),显式地建模并利用跨帧的人体运动轨迹以实现手语识别。具体而言,首先设计了一种相关性模块,用于动态计算当前帧与相邻帧之间各空间块的关联图,以识别所有空间区域的运动轨迹;随后引入一个识别模块,动态强化这些相关性图中的人体轨迹信息。由此生成的特征能够全面感知局部时间维度上的运动模式,从而更准确地识别手语。得益于对身体运动轨迹的特殊关注,CorrNet在四个大规模数据集(PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL)上均取得了新的最先进识别精度。与以往时空推理方法的全面对比进一步验证了CorrNet的有效性。可视化结果也清晰展示了CorrNet在增强相邻帧间人体轨迹信息方面的显著作用。