
摘要
从单张RGB图像中实现6自由度(6-DoF)物体位姿估计是计算机视觉领域一个基础且长期存在的难题。当前主流方法通常通过训练深度网络,直接回归图像中的旋转与平移参数,或先建立2D-3D对应关系,再通过PnP(Perspective-n-Point)算法间接求解。然而,我们指出:由于旋转与平移在几何特性与表达方式上存在显著差异,应对其采取不同的处理策略。为此,本文提出一种新颖的6-DoF位姿估计方法——基于坐标的解耦位姿网络(Coordinates-based Disentangled Pose Network, CDPN),该方法将位姿分解为旋转与平移两个独立部分进行分别预测,从而实现高精度且鲁棒的位姿估计。所提方法具有良好的灵活性、高效性与高精度,能够有效处理无纹理及部分遮挡的物体。我们在LINEMOD与Occlusion数据集上进行了大量实验,结果充分验证了该方法的优越性。具体而言,我们的方法在常用评估指标上显著超越了现有的基于RGB的先进方法。