
摘要
本文探讨了在严重遮挡或截断情况下从单张RGB图像进行六自由度(6DoF)姿态估计的挑战。许多近期的研究表明,一种两阶段的方法,即首先检测关键点,然后通过透视n点(PnP)问题求解进行姿态估计,能够取得显著的效果。然而,大多数这些方法仅通过回归关键点的图像坐标或热图来定位一组稀疏的关键点,这使得它们对遮挡和截断非常敏感。相比之下,我们引入了一种像素级投票网络(PVNet),用于回归指向关键点的像素级单位向量,并利用这些向量通过RANSAC算法对关键点位置进行投票。这种方法为定位被遮挡或截断的关键点提供了一种灵活的表示形式。此外,这种表示形式的一个重要特点是它提供了关键点位置的不确定性信息,这些信息可以进一步被PnP求解器利用。实验结果表明,所提出的方法在LINEMOD、Occlusion LINEMOD和YCB-Video数据集上大幅超越了现有方法,并且在实时姿态估计中具有高效性。为了验证我们方法在面对截断情况时的鲁棒性,我们还创建了一个Truncation LINEMOD数据集。代码将在https://zju-3dv.github.io/pvnet/ 上提供。