6 个月前

卷积神经网络

计算机视觉

Yu Qiao Zhifeng Li Yali Wang An Yan

摘要

近期研究已证实，3D卷积神经网络（3D CNNs）在视频动作识别任务中取得了显著成功。然而，大多数3D模型仍基于RGB图像流和光流（optical flow）流构建，难以充分挖掘人体姿态动态这一关键信息——而姿态动态是建模人类动作的重要线索。为弥补这一不足，本文提出一种简洁高效的Pose-Action 3D机器（Pose-Action 3D Machine, PA3D），能够在统一的3D框架内有效编码多种姿态模态，从而学习到具有时空特性的姿态表示，用于动作识别。具体而言，我们引入了一种新型的时间维度姿态卷积（temporal pose convolution），用于在时间维度上聚合多帧的空间姿态信息。与传统的时序卷积不同，该操作能够显式地学习对动作识别具有判别性的姿态运动模式。在三个主流基准数据集（JHMDB、HMDB和Charades）上的大量实验表明，PA3D在性能上超越了当前主流的姿态驱动方法。此外，PA3D与近期先进的3D CNN模型（如I3D）具有高度互补性，通过多流融合策略，在所有测试数据集上均取得了当前最优（state-of-the-art）的识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Yu Qiao Zhifeng Li Yali Wang An Yan

摘要

近期研究已证实，3D卷积神经网络（3D CNNs）在视频动作识别任务中取得了显著成功。然而，大多数3D模型仍基于RGB图像流和光流（optical flow）流构建，难以充分挖掘人体姿态动态这一关键信息——而姿态动态是建模人类动作的重要线索。为弥补这一不足，本文提出一种简洁高效的Pose-Action 3D机器（Pose-Action 3D Machine, PA3D），能够在统一的3D框架内有效编码多种姿态模态，从而学习到具有时空特性的姿态表示，用于动作识别。具体而言，我们引入了一种新型的时间维度姿态卷积（temporal pose convolution），用于在时间维度上聚合多帧的空间姿态信息。与传统的时序卷积不同，该操作能够显式地学习对动作识别具有判别性的姿态运动模式。在三个主流基准数据集（JHMDB、HMDB和Charades）上的大量实验表明，PA3D在性能上超越了当前主流的姿态驱动方法。此外，PA3D与近期先进的3D CNN模型（如I3D）具有高度互补性，通过多流融合策略，在所有测试数据集上均取得了当前最优（state-of-the-art）的识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供