
摘要
在视觉环境中根据自然语言指令进行导航是一项具有挑战性的任务,因为智能体所接收的多模态输入具有高度的变异性,且在新任务上的训练数据通常十分有限。本文提出了首个面向视觉-语言导航(Vision-and-Language Navigation, VLN)任务的预训练与微调范式。通过在大规模图像-文本-动作三元组数据上以自监督学习方式训练,预训练模型能够获得对视觉环境和语言指令的通用表征。该模型可无缝集成至现有的VLN框架中,从而构建出所提出的智能体——Prevalent。该智能体在新任务中具备更强的学习能力,并能在此前未见过的环境中实现更优的泛化性能。我们在三个VLN任务上验证了该方法的有效性。在Room-to-Room基准测试中,模型将成功率(按路径长度加权)从现有最优水平的47%提升至51%。此外,所学习到的表征具有良好的可迁移性,可有效应用于其他VLN任务。在两项近期提出的任务——视觉-对话导航(vision-and-dialog navigation)和“Help, Anna!”中,Prevalent均显著优于现有方法,达到了新的性能上限,展现了卓越的通用性与先进性。