
摘要
从图像中估计物体的6D姿态在机器人操作和虚拟现实等多种应用中是一个重要的问题。尽管直接从图像回归到物体姿态的方法精度有限,但通过将物体的渲染图像与观测图像进行匹配可以产生准确的结果。在这项工作中,我们提出了一种名为DeepIM的新颖深度神经网络用于6D姿态匹配。给定一个初始的姿态估计,我们的网络能够通过将渲染图像与观测图像进行匹配来迭代地优化该姿态。网络经过训练,可以使用解耦合的3D位置和3D方向表示以及迭代训练过程来预测相对姿态变换。在两个常用的6D姿态估计基准数据集上的实验表明,DeepIM相比现有方法取得了显著的改进。此外,我们还展示了DeepIM能够匹配之前未见过的物体。