
摘要
空间智能是具身人工智能(embodied AI)的关键组成部分,有助于机器人理解并与其环境进行交互。尽管近期进展提升了视觉语言模型(VLMs)对物体位置及相对位置关系的感知能力,但其在精确理解物体朝向方面仍存在明显不足——而朝向理解正是执行精细操作任务的核心需求。克服这一局限不仅需要几何推理能力,还需一种表达性强且直观的朝向表示方法。在此背景下,我们提出,相较于传统的标准坐标系,自然语言提供了一个更具灵活性的表示空间,因而特别适用于遵循指令的机器人系统。本文中,我们引入“语义朝向”(semantic orientation)的概念,采用无参考坐标系的方式,利用自然语言描述物体的朝向(例如,USB接口的“插入方向”或刀具的“手柄方向”)。为支持该方法,我们构建了OrienText300K——一个大规模3D模型数据集,其中每个模型均标注了语义朝向信息,实现了几何理解与功能语义之间的有效关联。通过将语义朝向集成至VLM系统中,我们使机器人能够生成同时满足位置与朝向约束的操作动作。在仿真环境与真实世界中的大量实验表明,本方法显著提升了机器人的操作能力:在Open6DOR基准上达到48.7%的准确率,在SIMPLER基准上达到74.9%的准确率。