16 天前
面向视觉-语言导航的历史感知多模态Transformer
Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev

摘要
视觉-语言导航(Vision-and-Language Navigation, VLN)旨在构建能够遵循指令并在真实场景中自主导航的视觉智能体。为记忆先前访问过的地点及已执行的动作,现有大多数VLN方法采用循环状态来实现记忆机制。与此不同,本文提出一种历史感知多模态Transformer(History Aware Multimodal Transformer, HAMT),将长时程历史信息有效融入多模态决策过程。HAMT通过一种分层视觉Transformer(Vision Transformer, ViT)高效编码全部历史全景观测数据:首先使用ViT对单张图像进行特征编码,随后建模单次全景观测中各图像之间的空间关系,最后捕捉历史中多个全景图像之间的时序关联。在此基础上,HAMT联合文本指令、历史记忆与当前观测,以预测下一步动作。我们首先通过若干代理任务(如单步动作预测、空间关系预测)对HAMT进行端到端训练,随后采用强化学习进一步优化导航策略。实验结果表明,HAMT在多种VLN任务上均取得了新的最先进性能,涵盖细粒度指令导航(R2R、RxR)、高层指令导航(R2R-Last、REVERIE)、对话式导航(CVDN)以及长时程视觉-语言导航(R4R、R2R-Back)。特别地,我们在长轨迹导航任务中验证了HAMT的显著优势,证明其在处理复杂、长序列导航任务时具有卓越的性能与鲁棒性。