16 天前

Open6DOR:面向开放指令的6-DoF物体重排基准测试及基于VLM的方法

{He Wang, Zhizheng Zhang, Qiyu Dai, Songlin Wei, Jiazhao Zhang, Xiaomeng Fang, Chaoyi Xu, Haoran Geng, Yufei Ding}
Open6DOR:面向开放指令的6-DoF物体重排基准测试及基于VLM的方法
摘要

在本工作中,我们推动了桌面级开放指令6自由度物体重排(Open-instruction 6-DoF Object Rearrangement, Open6DOR)基准与方法的开创性构建。具体而言,我们收集了一个包含200多个物体的合成数据集,并精心设计了2400余个Open6DOR任务。这些任务被划分为位置追踪(Position-track)、旋转追踪(Rotation-track)以及6自由度追踪(6-DoF-track)三类,用于评估不同具身智能体在预测目标物体位置与姿态方面的性能。此外,我们提出了一种基于视觉语言模型(VLM)的Open6DOR方法,命名为Open6DOR-GPT。该方法在充分利用GPT-4V在泛化能力与指令遵循方面的优势的同时,通过引入3D感知能力与仿真辅助机制,赋予其对三维空间的理解能力。我们在所提出的Open6DOR基准上,将现有具身智能体与Open6DOR-GPT进行对比,结果表明,Open6DOR-GPT达到了当前最优性能。我们进一步展示了Open6DOR-GPT在多种真实场景实验中表现出的卓越性能。我们计划于9月初发布该基准的最终版本,以及我们优化后的完整方法,因此建议读者等待至该时间点再下载数据集。