11 天前

面向机器人视觉-语言导航的分层跨模态Agent

面向机器人视觉-语言导航的分层跨模态Agent
摘要

深度学习已彻底革新了我们解决复杂问题的能力,例如视觉-语言导航(Vision-and-Language Navigation, VLN)。该任务要求智能体仅根据自然语言指令和视觉感知输入,完成前往目标位置的导航。然而,以往的研究通常将该问题建模为基于离散动作空间的导航图结构。在本工作中,我们突破了这一限制,将智能体从导航图中解放出来,提出了一种更为复杂的VLN设置——在连续的3D重建环境中进行导航。我们所提出的Robo-VLN任务更贴近真实世界导航所面临的挑战,其轨迹长度更长,动作空间为连续型,并包含诸如障碍物等现实因素。我们设计了一套基于当前离散VLN领域最先进方法的基线模型,结果表明这些方法在该新设置下表现显著下降。进一步地,我们提出将任务分解为专门化的高层策略与低层策略,以更有效地应对复杂挑战。通过大量实验验证,我们发现采用分层决策机制、模块化训练方式,以及解耦推理与模仿学习,所提出的分层跨模态(Hierarchical Cross-Modal, HCM)智能体在所有关键指标上均显著优于现有基线方法,为Robo-VLN任务树立了新的基准。

面向机器人视觉-语言导航的分层跨模态Agent | 最新论文 | HyperAI超神经