2 个月前

CDPN：基于坐标的解耦姿态网络，用于实时RGB 6-DoF物体姿态估计

{ Xiangyang Ji, Gu Wang, Zhigang Li}

摘要

从单张RGB图像中实现6自由度（6-DoF）物体位姿估计是计算机视觉领域一个基础且长期存在的难题。当前主流方法通常通过训练深度网络，直接回归图像中的旋转与平移参数，或先建立2D-3D对应关系，再通过PnP（Perspective-n-Point）算法间接求解。然而，我们指出：由于旋转与平移在几何特性与表达方式上存在显著差异，应对其采取不同的处理策略。为此，本文提出一种新颖的6-DoF位姿估计方法——基于坐标的解耦位姿网络（Coordinates-based Disentangled Pose Network, CDPN），该方法将位姿分解为旋转与平移两个独立部分进行分别预测，从而实现高精度且鲁棒的位姿估计。所提方法具有良好的灵活性、高效性与高精度，能够有效处理无纹理及部分遮挡的物体。我们在LINEMOD与Occlusion数据集上进行了大量实验，结果充分验证了该方法的优越性。具体而言，我们的方法在常用评估指标上显著超越了现有的基于RGB的先进方法。