
摘要
近年来,从单张RGB图像中估计刚性物体位姿的任务取得了显著进展,但如何在部分遮挡情况下保持鲁棒性仍是极具挑战性的问题。通过渲染进行位姿精化的方法展现出良好前景,尤其在数据稀缺的情况下能够有效提升性能。本文聚焦于位姿精化问题,提出一种新方法,进一步推动了部分遮挡场景下的技术前沿。所提出的位姿精化方法基于一个简化的学习任务:训练一个卷积神经网络(CNN),使其能够估计观测图像与渲染图像之间的重投影误差。我们在纯合成数据以及合成与真实数据混合的数据集上进行了训练实验。在Occlusion LINEMOD基准测试中,该方法在三项评估指标中的两项上超越了当前最优结果,另一项指标表现与现有方法相当。