
摘要
我们提出了一种多视角姿态变换器(Multi-view Pose Transformer, MvP),用于从多视角图像中估计多人的三维姿态。与以往方法依赖昂贵的体素表示来推断三维关节位置,或通过多个检测到的二维姿态重建个体三维姿态不同,MvP以一种简洁高效的方式直接回归多人的三维姿态,无需依赖中间任务。具体而言,MvP将骨骼关节表示为可学习的查询嵌入(query embeddings),并让这些查询逐步关注和推理输入图像中的多视角信息,从而直接回归出真实的三维关节坐标。为了提升这一简洁流程的精度,MvP提出了一种分层结构,以紧凑的方式表示多人骨骼关节的查询嵌入,并引入了一种依赖输入的查询自适应机制。此外,MvP设计了一种新颖的几何引导注意力机制——投影注意力(projective attention),以更精确地融合每个关节的跨视角信息。同时,MvP还引入了RayConv操作,将视角相关的相机几何信息融入特征表示中,进一步增强投影注意力的效果。实验结果表明,我们的MvP模型在多个基准测试上均超越了当前最优方法,且具有更高的效率。尤为突出的是,在具有挑战性的Panoptic数据集上,MvP达到了92.3%的AP25指标,较此前最佳方法[36]提升了9.8%。MvP具有良好的通用性,还可扩展用于恢复由SMPL模型表示的人体网格,因而对多人体形建模具有重要应用价值。代码与模型已开源,详见:https://github.com/sail-sg/mvp。