11 天前

SoFar:基于语言的地物定位桥接空间推理与物体操作

Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
SoFar:基于语言的地物定位桥接空间推理与物体操作
摘要

空间智能是具身人工智能(embodied AI)的关键组成部分,有助于机器人理解并与其环境进行交互。尽管近期进展提升了视觉语言模型(VLMs)对物体位置及相对位置关系的感知能力,但其在精确理解物体朝向方面仍存在明显不足——而朝向理解正是执行精细操作任务的核心需求。克服这一局限不仅需要几何推理能力,还需一种表达性强且直观的朝向表示方法。在此背景下,我们提出,相较于传统的标准坐标系,自然语言提供了一个更具灵活性的表示空间,因而特别适用于遵循指令的机器人系统。本文中,我们引入“语义朝向”(semantic orientation)的概念,采用无参考坐标系的方式,利用自然语言描述物体的朝向(例如,USB接口的“插入方向”或刀具的“手柄方向”)。为支持该方法,我们构建了OrienText300K——一个大规模3D模型数据集,其中每个模型均标注了语义朝向信息,实现了几何理解与功能语义之间的有效关联。通过将语义朝向集成至VLM系统中,我们使机器人能够生成同时满足位置与朝向约束的操作动作。在仿真环境与真实世界中的大量实验表明,本方法显著提升了机器人的操作能力:在Open6DOR基准上达到48.7%的准确率,在SIMPLER基准上达到74.9%的准确率。