16 天前

VPN++:重新思考用于理解日常生活活动的视频-姿态嵌入

Srijan Das, Rui Dai, Di Yang, Francois Bremond
VPN++:重新思考用于理解日常生活活动的视频-姿态嵌入
摘要

针对日常生活活动(Activities of Daily Living, ADL)识别,已有大量研究尝试融合RGB图像与3D姿态信息。由于ADL动作外观往往极为相似,需建模精细的细节才能有效区分。然而,当前主流的3D卷积神经网络(3D ConvNets)在捕捉动作过程中细微的视觉模式方面存在局限性,难以灵活适应动态变化。因此,当前主流方法仍以融合RGB与3D姿态信息为主。然而,在缺乏专用传感器的情况下,从RGB流中计算3D姿态的计算开销较大,限制了此类方法在实际应用中对低延迟要求场景的适用性。那么,如何最有效地利用3D姿态信息来提升ADL识别性能?为此,本文提出一种基于姿态驱动注意力机制的扩展方法——视频姿态网络(Video-Pose Network, VPN),并探索了两个不同的技术方向:其一,通过特征级知识蒸馏,将姿态知识迁移至RGB特征空间;其二,通过注意力级知识蒸馏,模拟姿态驱动的注意力机制。最终,我们将这两种策略融合为统一模型,命名为VPN++。实验结果表明,VPN++不仅在识别性能上表现优异,还具备显著的加速能力,并对噪声姿态具有较强的鲁棒性。无论是否依赖3D姿态输入,VPN++在4个公开数据集上的表现均优于现有代表性基线方法。相关代码已开源,地址为:https://github.com/srijandas07/vpnplusplus。

VPN++:重新思考用于理解日常生活活动的视频-姿态嵌入 | 最新论文 | HyperAI超神经