2 个月前

几何偏置变压器用于鲁棒多视图3D人体姿态重建

Moliner, Olivier ; Huang, Sangxia ; Åström, Kalle
几何偏置变压器用于鲁棒多视图3D人体姿态重建
摘要

我们解决了在遮挡和视图重叠有限的情况下从多视角估计三维人体姿态的挑战。我们将多视角单人三维人体姿态重建视为一个回归问题,并提出了一种新颖的编码器-解码器Transformer架构,用于从多视角二维姿态序列中估计三维姿态。编码器通过全局自注意力机制融合不同视图和时间检测到的二维骨架关节信息,对这些关节进行精炼。我们通过引入几何偏置注意力机制(geometry-biased attention mechanism)增强了编码器,有效利用了视图之间的几何关系。此外,我们还利用二维姿态检测器提供的检测分数,根据二维检测结果的可靠性进一步引导编码器的注意力。解码器随后使用预定义的查询来从这些精炼后的标记中回归出三维姿态序列。为了提高我们的方法在未见过场景中的泛化能力和对缺失关节的鲁棒性,我们实施了包括场景中心化、合成视图和标记丢弃在内的多种策略。我们在三个基准公开数据集Human3.6M、CMU Panoptic和Occlusion-Persons上进行了广泛的实验。实验结果表明,我们的方法在遮挡场景和视图数量较少的情况下特别有效,而这些情况通常是基于三角测量的方法所面临的传统难题。