
摘要
近期研究已证实,3D卷积神经网络(3D CNNs)在视频动作识别任务中取得了显著成功。然而,大多数3D模型仍基于RGB图像流和光流(optical flow)流构建,难以充分挖掘人体姿态动态这一关键信息——而姿态动态是建模人类动作的重要线索。为弥补这一不足,本文提出一种简洁高效的Pose-Action 3D机器(Pose-Action 3D Machine, PA3D),能够在统一的3D框架内有效编码多种姿态模态,从而学习到具有时空特性的姿态表示,用于动作识别。具体而言,我们引入了一种新型的时间维度姿态卷积(temporal pose convolution),用于在时间维度上聚合多帧的空间姿态信息。与传统的时序卷积不同,该操作能够显式地学习对动作识别具有判别性的姿态运动模式。在三个主流基准数据集(JHMDB、HMDB和Charades)上的大量实验表明,PA3D在性能上超越了当前主流的姿态驱动方法。此外,PA3D与近期先进的3D CNN模型(如I3D)具有高度互补性,通过多流融合策略,在所有测试数据集上均取得了当前最优(state-of-the-art)的识别性能。