16 天前

VPN:面向日常活动的视频姿态嵌入学习

Srijan Das, Saurav Sharma, Rui Dai, Francois Bremond, Monique Thonnat
VPN:面向日常活动的视频姿态嵌入学习
摘要

本文聚焦于识别日常生活活动(Activities of Daily Living, ADL)的时空特性。ADL具有两个显著特征:(i)细微的时空模式,以及(ii)随时间变化而呈现相似的视觉模式。因此,ADL之间往往外观极为相似,通常需要深入分析其细粒度的差异才能加以区分。由于现有的时空3D卷积神经网络(3D ConvNets)在捕捉动作过程中细微的视觉模式方面过于僵化,本文提出一种新型视频-姿态网络(Video-Pose Network, VPN)。该VPN包含两个核心组件:空间嵌入模块与注意力网络。空间嵌入模块将3D姿态信息与RGB视觉线索映射到一个共享的语义空间中,使动作识别框架能够更好地融合多模态信息,从而学习更具判别性的时空特征。为有效区分相似动作,注意力网络具备两项关键功能:(i)一种端到端可学习的姿态主干网络,能够利用人体结构的拓扑关系;(ii)一个耦合模块,用于在视频序列中生成联合的时空注意力权重,以增强对关键时空区域的关注。实验结果表明,所提出的VPN在大规模人类活动数据集NTU-RGB+D 120及其子集NTU-RGB+D 60上,均优于当前最先进的动作分类方法;同时在更具现实挑战性的丰田智能家居数据集(Toyota Smarthome)以及小规模人-物体交互数据集Northwestern UCLA上也取得了显著性能提升,验证了该方法在多种场景下的有效性与泛化能力。

VPN:面向日常活动的视频姿态嵌入学习 | 最新论文 | HyperAI超神经