16 天前

面向视觉-语言导航的历史感知多模态Transformer

Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev

摘要

视觉-语言导航（Vision-and-Language Navigation, VLN）旨在构建能够遵循指令并在真实场景中自主导航的视觉智能体。为记忆先前访问过的地点及已执行的动作，现有大多数VLN方法采用循环状态来实现记忆机制。与此不同，本文提出一种历史感知多模态Transformer（History Aware Multimodal Transformer, HAMT），将长时程历史信息有效融入多模态决策过程。HAMT通过一种分层视觉Transformer（Vision Transformer, ViT）高效编码全部历史全景观测数据：首先使用ViT对单张图像进行特征编码，随后建模单次全景观测中各图像之间的空间关系，最后捕捉历史中多个全景图像之间的时序关联。在此基础上，HAMT联合文本指令、历史记忆与当前观测，以预测下一步动作。我们首先通过若干代理任务（如单步动作预测、空间关系预测）对HAMT进行端到端训练，随后采用强化学习进一步优化导航策略。实验结果表明，HAMT在多种VLN任务上均取得了新的最先进性能，涵盖细粒度指令导航（R2R、RxR）、高层指令导航（R2R-Last、REVERIE）、对话式导航（CVDN）以及长时程视觉-语言导航（R4R、R2R-Back）。特别地，我们在长轨迹导航任务中验证了HAMT的显著优势，证明其在处理复杂、长序列导航任务时具有卓越的性能与鲁棒性。