
摘要
在同步且标定的多视角设置中,定位三维人体关节的一种常用方法包含两个步骤:(1)在每个视角上独立应用二维检测器,以实现关节在二维图像中的定位;(2)基于各视角的二维检测结果,执行鲁棒的三角测量,从而获得三维关节位置。然而,在第一步中,二维检测器仅依赖二维信息进行判断,难以有效处理那些在三维空间中可能更容易解决的复杂情况,例如遮挡和倾斜视角等问题。为克服这一局限,我们提出了一种可微分的“极线变换器”(epipolar transformer),使二维检测器能够利用三维感知特征,从而提升二维姿态估计的精度。其核心思想是:给定当前视角中的二维点位置 $ p $,首先在邻近视角中寻找其对应点 $ p' $,然后将 $ p' $ 处的特征与 $ p $ 处的特征进行融合,从而生成一个具有三维感知能力的特征表示。受立体匹配思想的启发,极线变换器利用极线约束与特征匹配机制,近似推断出 $ p' $ 位置处的特征。在 InterHand 和 Human3.6M 数据集上的实验表明,所提方法在多个基准上均取得了稳定且显著的性能提升。具体而言,在不使用任何外部数据的条件下,采用 ResNet-50 主干网络、输入图像尺寸为 256×256 的 Human3.6M 模型,相比当前最先进方法,平均关键点定位误差(MPJPE)降低了 4.23 mm,达到 26.9 mm,展现出优异的性能。