19 天前

SOON:基于图结构探索的场景导向目标导航

Fengda Zhu, Xiwen Liang, Yi Zhu, Xiaojun Chang, Xiaodan Liang
SOON:基于图结构探索的场景导向目标导航
摘要

在三维具身环境中,从任意位置像人类一样根据语言指令导航至目标,是智能机器人领域的一项“圣杯”级目标。然而,目前大多数视觉导航基准测试都聚焦于从固定起点出发,依据详尽的分步指令完成导航任务。这种设定与现实场景存在显著差异:在真实世界中,人类通常仅通过描述目标物体及其周围环境的外观特征,便要求机器人从任意位置启动导航。针对这一问题,本文提出了一个面向场景的物体导航任务(Scenario Oriented Object Navigation, SOON)。在该任务中,智能体需在三维具身环境中从任意起始位置出发,依据场景描述定位目标物体。为有效应对该任务,我们提出了一种新型基于图的探索方法(Graph-based Exploration, GBE),该方法将导航状态建模为图结构,并引入一种新颖的图结构探索机制,通过从图中学习知识,同时利用次优轨迹进行训练以提升训练稳定性。此外,我们构建了一个全新的大规模基准数据集——“从任意位置到目标”(From Anywhere to Object, FAO),用于评估该任务。为避免目标歧义,FAO中的描述包含丰富的语义场景信息,涵盖物体属性、物体间关系、区域描述以及邻近区域描述等多个维度。实验结果表明,所提出的GBE方法在FAO和R2R两个数据集上均显著优于多种现有先进方法。同时,基于FAO的消融实验进一步验证了该数据集在质量与有效性方面的优越性。

SOON:基于图结构探索的场景导向目标导航 | 论文 | HyperAI超神经