19 天前
从无标签3D环境中学得视觉-语言导航能力
Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

摘要
在视觉-语言导航(Vision-and-Language Navigation, VLN)任务中,具身智能体需根据自然语言指令在真实的三维环境中完成导航。现有VLN方法面临的一个主要瓶颈是训练数据不足,导致模型在未见过的环境中的泛化能力较差。尽管VLN数据通常依赖人工采集,但该方式成本高昂,难以实现规模化扩展。为此,本文提出一种自动构建大规模VLN数据集的方法,利用900个未标注的3D建筑场景(来自HM3D数据集)生成数据。我们为每个建筑构建导航图,并通过跨视角一致性机制,将2D图像中的物体检测结果迁移至3D空间,生成伪3D物体标签。随后,我们利用这些伪物体标签作为提示(prompt),对预训练语言模型进行微调,以缓解指令生成过程中跨模态语义鸿沟问题。最终构建的HM3D-AutoVLN数据集在导航环境数量和指令规模上均比现有VLN数据集大一个数量级。实验结果表明,基于该数据集训练的VLN模型显著提升了泛化能力:在REVERIE和SOON数据集的未见验证集上,SPL指标分别较现有最先进方法提升7.1%和8.1%。