2 个月前

只需添加$\pi$!姿态诱导的视频变换器用于理解日常生活活动

Reilly, Dominick ; Das, Srijan
只需添加$\pi$!姿态诱导的视频变换器用于理解日常生活活动
摘要

视频变压器已成为人类行为识别的 facto 标准,但其对 RGB 模态的单一依赖仍然限制了其在某些领域的应用。其中一个领域是日常生活活动(ADL),仅靠 RGB 无法区分视觉上相似的动作,或者从多个视角观察到的动作。为了促进视频变压器在 ADL 领域的应用,我们假设将 RGB 与已知对细微动作和多视角敏感的人体姿态信息相结合是至关重要的。因此,我们引入了首个姿态诱导视频变压器:PI-ViT(或 $\pi$-ViT),这是一种创新方法,通过增强视频变压器学习到的 RGB 表征来融合 2D 和 3D 姿态信息。$\pi$-ViT 的关键组件是两个插件模块——2D 骨骼诱导模块和 3D 骨骼诱导模块,它们负责将 2D 和 3D 姿态信息引入 RGB 表征中。这些模块通过执行姿态感知辅助任务来运作,这一设计选择使得 $\pi$-ViT 在推理过程中可以丢弃这些模块。值得注意的是,$\pi$-ViT 在三个著名的 ADL 数据集上实现了最先进的性能,涵盖了现实世界和大规模的 RGB-D 数据集,在推理时无需姿态信息或额外的计算开销。优化后的译文:视频变压器已成为人类行为识别的事实标准,但其对 RGB 模态的单一依赖仍限制了其在某些领域的应用。其中一个领域是日常生活活动(ADL),仅靠 RGB 模态难以区分视觉上相似的动作或从多个视角观察到的动作。为了促进视频变压器在 ADL 领域的应用,我们认为将人体姿态信息与 RGB 模态结合是至关重要的。为此,我们引入了首个姿态诱导视频变压器:PI-ViT(或 $\pi$-ViT)。这是一种创新方法,通过增强视频变压器学习到的 RGB 表征来融合 2D 和 3D 姿态信息。$\pi$-ViT 的核心组件包括两个插件模块——2D 骨骼诱导模块和 3D 骨骼诱导模块,这两个模块负责将 2D 和 3D 姿态信息引入 RGB 表征中。这些模块通过执行姿态感知辅助任务来运作,这一设计使得 $\pi$-ViT 在推理过程中可以不使用这些模块。值得注意的是,$\pi$-ViT 在三个著名的 ADL 数据集上实现了最先进的性能,涵盖现实世界和大规模的 RGB-D 数据集,并且在推理时不需要姿态信息或额外的计算开销。