19 天前
HOP:面向视觉-语言导航的历史与顺序感知预训练
Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu

摘要
预训练方法已被少数近期研究应用于视觉-语言导航(Vision-and-Language Navigation, VLN)任务中。然而,以往的VLN预训练方法要么缺乏对未来动作的预测能力,要么忽略了轨迹上下文信息,而这两者对于贪婪式导航过程至关重要。为此,本文提出一种新型的、具备历史与顺序感知能力的预训练范式(History-and-Order Aware Pre-training, HOP),并设计了专为VLN任务定制的预训练目标,以利用历史观测信息并支持未来动作的预测。具体而言,除了常用的掩码语言建模(Masked Language Modeling, MLM)和轨迹-指令匹配(Trajectory-Instruction Matching, TIM)任务外,我们还设计了两个代理任务来建模时间顺序信息:轨迹顺序建模(Trajectory Order Modeling, TOM)与组间顺序建模(Group Order Modeling, GOM)。此外,为增强导航动作的预测能力,我们引入了“基于历史的动作预测”(Action Prediction with History, APH)任务,该任务充分考虑了历史视觉感知信息。在四个下游VLN任务(R2R、REVERIE、NDH、RxR)上的大量实验结果表明,所提出的方法相较于多个先进导航代理模型,具有显著的性能优势。