
摘要
机器人根据自然语言指令理解和执行操作任务的能力是机器人领域的长期目标。目前,语言引导操作的主要方法依赖于2D图像表示,这些方法在结合多视角摄像头和推断精确的3D位置及关系方面存在困难。为了解决这些问题,我们提出了一种基于3D点云的策略——PolarNet,用于语言引导的操作任务。该策略利用精心设计的点云输入、高效的点云编码器以及多模态变压器来学习3D点云表示,并将其与语言指令相结合以预测动作。在RLBench基准上进行的一系列实验表明,PolarNet不仅有效且数据效率高。无论是在单任务学习还是多任务学习中,PolarNet均优于现有的2D和3D方法,并在实际机器人上的测试中取得了令人鼓舞的结果。