2 个月前
PoseCNN:一种用于杂乱场景中6D物体姿态估计的卷积神经网络
Xiang, Yu ; Schmidt, Tanner ; Narayanan, Venkatraman ; Fox, Dieter

摘要
估计已知物体的6D姿态对于机器人与现实世界进行交互至关重要。由于物体种类繁多以及场景中物体之间的遮挡和杂乱导致的复杂性,这一问题具有相当大的挑战性。在本研究中,我们引入了一种新的卷积神经网络——PoseCNN,用于6D物体姿态估计。PoseCNN通过在图像中定位物体中心并预测其与相机的距离来估计物体的3D平移。物体的3D旋转则通过回归到四元数表示来估计。我们还提出了一种新颖的损失函数,使PoseCNN能够处理对称物体。此外,我们贡献了一个大规模视频数据集,名为YCB-Video数据集,用于6D物体姿态估计。我们的数据集提供了来自YCB数据集的21个物体在92段视频(共133,827帧)中的精确6D姿态。我们在YCB-Video数据集和OccludedLINEMOD数据集上进行了广泛的实验,结果表明PoseCNN对遮挡具有很高的鲁棒性,能够处理对称物体,并且仅使用彩色图像作为输入即可提供准确的姿态估计。当利用深度数据进一步优化姿态时,我们的方法在具有挑战性的OccludedLINEMOD数据集上达到了最先进的水平。我们的代码和数据集可在以下网址获取:https://rse-lab.cs.washington.edu/projects/posecnn/。