19 天前

BEVBert:面向语言引导导航的多模态地图预训练

Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan, Jing Shao
BEVBert:面向语言引导导航的多模态地图预训练
摘要

大规模预训练在视觉-语言导航(Vision-and-Language Navigation, VLN)任务中展现了令人瞩目的效果。然而,现有的大多数预训练方法采用离散的全景图像来学习视觉与文本之间的关联,这要求模型隐式地关联全景图中不完整且重复的观测信息,可能损害智能体的空间理解能力。为此,我们提出一种新型的基于地图的预训练范式,该范式具备空间感知能力,专为VLN任务设计。具体而言,我们构建了一个局部度量地图,显式地聚合不完整的观测数据并消除重复信息,同时在全局拓扑地图中建模导航的依赖关系。这种混合架构能够有效平衡VLN任务对短期推理与长期规划的双重需求。在此基础上,我们进一步设计了一种预训练框架,用于学习多模态地图表征,从而增强空间感知的跨模态推理能力,提升语言引导下的导航性能。大量实验结果表明,所提出的基于地图的预训练方法在VLN任务中具有显著有效性,该方法在四个主流VLN基准测试中均取得了当前最优(SOTA)性能。

BEVBert:面向语言引导导航的多模态地图预训练 | 论文 | HyperAI超神经