HyperAIHyperAI

Command Palette

Search for a command to run...

PA3D:用于视频识别的姿态-动作三维机器

Yu Qiao Zhifeng Li Yali Wang An Yan

摘要

近期研究已证实,3D卷积神经网络(3D CNNs)在视频动作识别任务中取得了显著成功。然而,大多数3D模型仍基于RGB图像流和光流(optical flow)流构建,难以充分挖掘人体姿态动态这一关键信息——而姿态动态是建模人类动作的重要线索。为弥补这一不足,本文提出一种简洁高效的Pose-Action 3D机器(Pose-Action 3D Machine, PA3D),能够在统一的3D框架内有效编码多种姿态模态,从而学习到具有时空特性的姿态表示,用于动作识别。具体而言,我们引入了一种新型的时间维度姿态卷积(temporal pose convolution),用于在时间维度上聚合多帧的空间姿态信息。与传统的时序卷积不同,该操作能够显式地学习对动作识别具有判别性的姿态运动模式。在三个主流基准数据集(JHMDB、HMDB和Charades)上的大量实验表明,PA3D在性能上超越了当前主流的姿态驱动方法。此外,PA3D与近期先进的3D CNN模型(如I3D)具有高度互补性,通过多流融合策略,在所有测试数据集上均取得了当前最优(state-of-the-art)的识别性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供