6 个月前

摘要

人体运动轨迹是视频中识别动作的关键线索。在手语视频中，这种身体轨迹主要通过连续帧间手部与面部的运动来体现。然而，当前连续手语识别（Continuous Sign Language Recognition, CSLR）方法通常独立处理每一帧，难以有效捕捉跨帧的运动轨迹，从而限制了手语的准确识别。为克服这一局限，本文提出相关性网络（CorrNet），显式地建模并利用跨帧的人体运动轨迹以实现手语识别。具体而言，首先设计了一种相关性模块，用于动态计算当前帧与相邻帧之间各空间块的关联图，以识别所有空间区域的运动轨迹；随后引入一个识别模块，动态强化这些相关性图中的人体轨迹信息。由此生成的特征能够全面感知局部时间维度上的运动模式，从而更准确地识别手语。得益于对身体运动轨迹的特殊关注，CorrNet在四个大规模数据集（PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL）上均取得了新的最先进识别精度。与以往时空推理方法的全面对比进一步验证了CorrNet的有效性。可视化结果也清晰展示了CorrNet在增强相邻帧间人体轨迹信息方面的显著作用。

源 PDF