
摘要
在视觉-语言导航(Vision-and-Language Navigation, VLN)任务中,智能体需根据自然语言指令在环境中进行导航。由于可用于训练智能体的数据有限,且导航环境的多样性有限,智能体在面对全新、未见过的环境时往往难以实现良好泛化。为解决这一问题,我们提出了一种名为 EnvEdit 的数据增强方法,通过编辑已有环境来生成新的环境,用于训练更具泛化能力的智能体。我们所构建的增强环境在三个不同维度上与原始环境存在差异:视觉风格、物体外观以及物体类别。在这些经过编辑增强的环境中进行训练,能够有效防止智能体对已有环境产生过拟合,从而显著提升其在新、未见环境中的泛化性能。实验结果表明,在 Room-to-Room 与多语言 Room-Across-Room 两个基准数据集上,无论是否使用预训练模型,所提出的 EnvEdit 方法均在各项评估指标上实现了显著提升,并在测试排行榜上取得了新的最先进(state-of-the-art)性能。此外,我们将基于不同编辑环境训练得到的多个 VLN 智能体进行集成,进一步验证了不同编辑方法之间具有良好的互补性。相关代码与数据已开源,获取地址为:https://github.com/jialuli-luka/EnvEdit