12 天前
一条新路径:基于合成指令与模仿学习的视觉-语言导航规模化
Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge, Zarana Parekh

摘要
近期在视觉-语言导航(Vision-and-Language Navigation, VLN)领域的研究致力于训练强化学习(RL)智能体,使其能够在逼真的图像环境中执行自然语言导航指令,这是实现能够理解并遵循人类指令的机器人的重要一步。然而,由于人类标注的导航指令数据稀缺,且训练环境的多样性有限,现有智能体在复杂语言语义理解与空间语言推理方面仍面临显著挑战。尽管已有大量研究探索在大规模文本及图文数据集上进行预训练,但性能提升仍然有限。本文提出通过大规模合成指令数据进行增强的新方法。我们采用超过500个室内场景,这些场景以高密度采样的360度全景图像形式采集,基于这些全景图构建导航轨迹,并利用Marky——一种高质量的多语言导航指令生成工具——为每条轨迹生成具有视觉语境的自然语言指令。同时,我们采用图像到图像的生成对抗网络(image-to-image GAN)从新视角合成图像观测数据。最终构建的指令-轨迹数据集包含420万对样本,规模较现有公开的人工标注数据集高出两个数量级,且涵盖更丰富的环境类型与视角变化。为高效利用如此大规模的数据,我们采用模仿学习(imitation learning)训练一个结构简洁的Transformer智能体。在具有挑战性的RxR基准测试中,我们的方法显著优于所有现有RL智能体:在已见环境中的NDTW(Normalized Distance-to-Target Weighted)指标从71.1提升至79.1,在未见测试环境中的指标也从64.6提升至66.8。本研究揭示了一条提升指令跟随智能体性能的新路径,强调了大规模模仿学习的重要性,以及合成指令生成能力的开发在构建更强大视觉-语言导航系统中的关键作用。