16 天前

动作识别的张量表示

Piotr Koniusz, Lei Wang, Anoop Cherian
动作识别的张量表示
摘要

视频序列中人类行为的特征表现为空间特征与其时间动态之间复杂的相互作用。本文提出了一种新颖的张量表示方法,旨在紧凑地捕捉视觉特征之间的高阶关系,以实现动作识别任务。我们提出了两种基于张量的特征表示方法:(i)序列兼容性核(Sequence Compatibility Kernel, SCK)和(ii)动态兼容性核(Dynamics Compatibility Kernel, DCK)。SCK 依赖于特征之间的时空相关性,而 DCK 则显式建模序列的动作动态特性。此外,我们进一步探讨了 SCK 的泛化形式——SCK(+),该方法作用于子序列,以捕捉局部与全局相关性的相互作用,能够融合多模态输入,例如三维骨骼关节点数据以及由视频训练的深度学习模型所生成的每帧分类得分。我们引入了这些核函数的线性化方法,从而得到紧凑且计算高效的特征描述子。我们在三类数据集上进行了实验验证:(i)三维骨骼动作序列,(ii)细粒度视频序列,以及(iii)标准非细粒度视频数据。由于我们的最终表示形式为张量,能够捕获特征之间的高阶关系,因此在细粒度识别任务中具有较强的鲁棒性。我们采用高阶张量与所谓的特征值幂归一化(Eigenvalue Power Normalization, EPN)方法,该方法长期以来被认为可用于检测高阶共现现象,从而识别出动作序列中特征之间的细粒度关联,而不仅仅是统计特征出现的频次。我们证明:一个由 $ Z^ $ 维特征构建的 $ r $ 阶张量,结合 EPN 方法,确实能够检测是否存在至少一个高阶共现现象“投影”至该张量所表示的 $ \binom{Z^, r} $ 个维度为 $ r $ 的子空间之一中。由此,我们构建了一种基于张量幂归一化的度量标准,该度量拥有 $ \binom{Z^*, r} $ 个这样的“检测器”,可有效识别高阶特征关系。

动作识别的张量表示 | 最新论文 | HyperAI超神经