11 天前
RoboUniView:面向机器人操作的具有统一视图表示的视觉-语言模型
Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma

摘要
利用视觉-语言模型(Vision-Language Models, VLMs)进行机器人操作代表了一种新兴范式,旨在提升模型对新物体和新指令的泛化能力。然而,由于摄像头规格和安装位置的差异,现有方法在不同机器人平台上的性能表现存在显著差距。为应对这一挑战,本文提出RoboUniView,一种创新性方法,其核心思想是将视觉特征提取与动作学习解耦。我们首先通过在易于获取的数据上进行预训练,从多视角图像中学习一种统一的视觉表征;随后,基于该统一视觉表征推导出控制动作,以实现机器人操作。这种统一的视觉表征更准确地反映了物理世界,且不受特定机器人平台摄像头参数的限制。得益于该方法,我们在具有挑战性的CALVIN基准测试中取得了当前最优性能:在$D \to D$设置下,成功率从93.0%提升至96.2%;在$ABC \to D$设置下,从92.2%提升至94.2%。此外,我们的模型展现出卓越的适应性与灵活性——在未见过的摄像头参数条件下仍能保持高性能,可有效利用具有不同摄像头参数的多个数据集,并支持跨数据集的联合多任务学习。相关代码已公开,可供复现:https://github.com/liufanfanlff/RoboUniview。