16 天前

IVT:一种面向3D姿态估计的端到端实例引导视频Transformer

Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu
IVT:一种面向3D姿态估计的端到端实例引导视频Transformer
摘要

视频3D人体姿态估计旨在从视频序列中定位人体关节的三维坐标。近年来,基于Transformer的方法主要关注从连续的2D姿态序列中捕捉时空信息,但由于2D姿态估计过程中视觉深度特征的丢失,这类方法难以有效建模上下文深度信息。为此,本文提出一种简化的端到端框架——实例引导视频Transformer(Instance-guided Video Transformer, IVT),能够直接从视频帧中有效学习时空上下文深度信息,并实现3D姿态的直接预测。具体而言,本文首先将视频帧建模为一系列实例引导的令牌(tokens),每个令牌负责预测某一人体实例的3D姿态。这些令牌通过人体中心到各关节的偏移量进行引导而提取,因而天然包含了人体结构信息。随后,这些令牌被输入至IVT网络中,以学习其时空上下文深度特征。此外,本文提出一种跨尺度实例引导注意力机制,以有效处理多人场景中不同个体尺度差异的问题。最后,通过坐标回归方式,从实例引导的令牌中解码出每个人的3D姿态。在三个广泛使用的3D姿态估计基准数据集上的实验结果表明,所提出的IVT方法在性能上达到了当前最优水平,显著提升了视频3D人体姿态估计的准确性与鲁棒性。

IVT:一种面向3D姿态估计的端到端实例引导视频Transformer | 最新论文 | HyperAI超神经