16 天前

IVT：一种面向3D姿态估计的端到端实例引导视频Transformer

Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu

摘要

视频3D人体姿态估计旨在从视频序列中定位人体关节的三维坐标。近年来，基于Transformer的方法主要关注从连续的2D姿态序列中捕捉时空信息，但由于2D姿态估计过程中视觉深度特征的丢失，这类方法难以有效建模上下文深度信息。为此，本文提出一种简化的端到端框架——实例引导视频Transformer（Instance-guided Video Transformer, IVT），能够直接从视频帧中有效学习时空上下文深度信息，并实现3D姿态的直接预测。具体而言，本文首先将视频帧建模为一系列实例引导的令牌（tokens），每个令牌负责预测某一人体实例的3D姿态。这些令牌通过人体中心到各关节的偏移量进行引导而提取，因而天然包含了人体结构信息。随后，这些令牌被输入至IVT网络中，以学习其时空上下文深度特征。此外，本文提出一种跨尺度实例引导注意力机制，以有效处理多人场景中不同个体尺度差异的问题。最后，通过坐标回归方式，从实例引导的令牌中解码出每个人的3D姿态。在三个广泛使用的3D姿态估计基准数据集上的实验结果表明，所提出的IVT方法在性能上达到了当前最优水平，显著提升了视频3D人体姿态估计的准确性与鲁棒性。