1 个月前

场景流到动作图:基于RGB-D的动作识别卷积神经网络的新表示方法

Pichao Wang; Wanqing Li; Zhimin Gao; Yuyao Zhang; Chang Tang; Philip Ogunbona
场景流到动作图:基于RGB-D的动作识别卷积神经网络的新表示方法
摘要

场景流描述了现实世界中三维物体的运动,有可能成为三维动作识别的良好特征基础。然而,其在动作识别中的应用,尤其是在卷积神经网络(ConvNets)的背景下,尚未得到充分研究。本文提出了一种从RGB-D数据中提取和利用场景流进行动作识别的方法。以往的研究通常将深度和RGB模态视为独立的通道,并分别提取特征以供后续融合。我们采取了一种不同的方法,将这些模态视为一个整体,从而在早期就能进行针对动作识别的特征提取。关于使用场景流进行动作识别的两个关键问题得到了解决:如何组织场景流向量以及如何基于场景流表示视频的长期动态。为了在现有的数据集中正确计算场景流,我们提出了一种有效的自校准方法,该方法无需了解相机参数即可实现RGB和深度数据的空间对齐。基于场景流向量,我们提出了一种新的表示方法——场景流向量到动作图(SFAM),该方法描述了用于动作识别的几种长期时空动态。我们采用了一个通道变换核来将场景流向量转换为类似于RGB的最佳颜色空间。这种转换更好地利用了在ImageNet上训练的ConvNets模型。实验结果表明,这一新表示方法在两个大型公开数据集上的性能超过了现有最先进方法。

场景流到动作图:基于RGB-D的动作识别卷积神经网络的新表示方法 | 最新论文 | HyperAI超神经