
摘要
许多视觉语言任务的性能已显著得益于视觉-语言(Vision-and-Language, V&L)BERT模型的应用。然而,该模型在视觉-语言导航(Vision-and-Language Navigation, VLN)任务中的应用仍较为有限。其中一个主要原因是,BERT架构难以适配VLN中存在部分可观测马尔可夫决策过程(partially observable Markov decision process)的特性,后者要求具备依赖历史信息的注意力机制与决策能力。本文提出一种面向VLN任务的时间感知循环BERT模型。具体而言,我们在BERT模型中引入循环机制,以持续维护智能体的跨模态状态信息。在R2R和REVERIE两个基准数据集上的大量实验表明,所提模型能够替代更为复杂的编码器-解码器结构,实现当前最优的性能表现。此外,该方法具有良好的可扩展性,可推广至其他基于Transformer的架构,支持预训练,并能同时完成导航与指代表达(referring expression)任务。