16 天前
基于随机环境混叠的视觉-语言导航
Chong Liu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang, Zongyuan Ge, Yi-Dong Shen

摘要
视觉-语言导航(Vision-Language Navigation, VLN)任务要求智能体在逐步导航过程中,结合视觉感知与自然语言指令的理解来完成目标。由于数据规模较小而导航空间庞大,导致数据分布存在显著偏差,这使得VLN任务极具挑战性。以往研究提出了多种数据增强方法以缓解数据偏差问题,但这些方法并未显式地减少不同房屋场景之间的数据偏差。因此,智能体容易对已见场景产生过拟合,在未见场景中表现出较差的导航性能。为解决这一问题,本文提出一种名为随机环境混合(Random Environmental Mixup, REM)的数据增强方法,通过混合不同环境来生成跨场景连接的增强数据。具体而言,首先根据房间连接图,为每个场景选取关键视角;随后,将不同场景的关键视角进行跨场景连接,构建出新的增强场景;最后,在这些跨连接场景中生成对应的增强指令-路径对。在标准基准数据集上的实验结果表明,基于REM方法生成的增强数据能够有效缩小智能体在已见场景与未见场景之间的性能差距,并显著提升整体导航表现。该方法在标准VLN基准测试中取得了当前最优的性能,成为现有最佳方法。相关代码已公开:https://github.com/LCFractal/VLNREM。