
摘要
解决相机到机器人姿态问题是基于视觉的机器人控制的基本需求,这一过程需要大量的努力和精心的设计以确保准确性。传统方法通过在机器人上添加标记来实现,而随后的深度学习方法则实现了无标记特征提取。主流的深度学习方法仅使用合成数据,并依赖域随机化(Domain Randomization)来弥补从仿真到现实的差距,因为获取3D注释是一项劳动密集型工作。在这项工作中,我们突破了真实世界数据中3D注释的限制。我们提出了一种端到端的姿态估计框架,该框架能够进行在线相机到机器人的校准,并采用自监督训练方法将训练扩展到未标注的真实世界数据。我们的框架结合了深度学习和几何视觉来解决机器人姿态问题,整个管道是完全可微分的。为了训练相机到机器人姿态估计网络(CtRNet),我们利用前景分割和可微分渲染实现图像级别的自监督。姿态预测通过渲染器可视化,并且图像损失与输入图像之间的反向传播用于训练神经网络。我们在两个公开的真实数据集上的实验结果证实了我们方法的有效性,优于现有工作。此外,我们将该框架集成到一个视觉伺服系统中,展示了其在自动化任务中实现实时精确机器人姿态估计的潜力。