
摘要
从RGB图像中估计机器人姿态是计算机视觉和机器人学中的一个关键问题。尽管先前的方法已经取得了令人鼓舞的性能,但大多数方法假设完全了解机器人的内部状态,例如地面真值的机器人关节角度。然而,在实际应用中这一假设并不总是成立。在诸如多机器人协作或多模态人机交互等现实场景中,机器人关节状态可能无法共享或不可靠。另一方面,现有的无需关节状态先验知识来估计机器人姿态的方法计算负担过重,因此无法支持实时应用。本研究介绍了一种高效的框架,能够在无需已知机器人状态的情况下从RGB图像中实现实时的机器人姿态估计。该方法通过神经网络模块分别估计相机到机器人的旋转、机器人状态参数、关键点位置和根节点深度,以促进学习和仿真到真实环境的迁移。值得注意的是,该方法能够在单次前向传播过程中完成推理,而无需迭代优化。我们的方法首次实现了实时的整体机器人姿态估计,并且在保持最先进精度的同时提供了12倍的速度提升。代码和模型可在https://github.com/Oliverbansk/Holistic-Robot-Pose-Estimation 获取。