7 个月前

摘要

近期研究表明，循环神经网络（Recurrent Neural Networks, RNNs）在视频动作识别任务中具有显著有效性。然而，以往的研究主要依赖视频级别的类别标签作为监督信号来训练RNN，这种策略可能限制了RNN对时间维度上复杂运动结构的学习能力。为此，本文提出一种新型的循环姿态注意力网络（Recurrent Pose-Attention Network, RPAN），以应对这一挑战。该方法引入了一种新颖的姿态注意力机制，能够在RNN每一时间步的动作预测中自适应地学习与姿态相关的特征。本文主要做出以下三项贡献：首先，与以往基于姿态的动作识别方法不同，我们的RPAN是一种端到端的循环网络架构，能够在统一框架下有效利用人体姿态在时空维度上的演化信息，从而辅助动作识别。其次，不同于单独学习各个人体关节特征的方式，本文提出的姿态注意力机制通过在语义相关的关节之间部分共享注意力参数，学习更具鲁棒性的人体部位特征；这些人体部位特征随后被输入至人体部位池化层，构建出具有高度判别性的姿态相关表示，用于时间动作建模。第三，RPAN的一个重要附加成果是能够实现视频中的人体姿态估计，该结果可进一步用于动作视频的粗粒度姿态标注。我们在两个主流基准数据集——Sub-JHMDB和PennAction上对所提出的RPAN进行了定量与定性评估。实验结果表明，RPAN在这些具有挑战性的数据集上均优于当前最新的先进方法。

源 PDF