2 个月前

通过辅助进度估计实现自我监控的导航代理

Chih-Yao Ma; Jiasen Lu; Zuxuan Wu; Ghassan AlRegib; Zsolt Kira; Richard Socher; Caiming Xiong
通过辅助进度估计实现自我监控的导航代理
摘要

视觉-语言导航(Vision-and-Language Navigation, VLN)任务涉及代理在照片级真实的未知环境中遵循导航指令。这一具有挑战性的任务要求代理能够识别哪些指令已经完成,下一步需要执行哪些指令,应该朝哪个方向前进,以及其向目标位置的导航进展。在本文中,我们介绍了一种带有两个互补组件的自我监控代理:(1) 视觉-文本共定位模块,用于从周围图像中确定过去已完成的指令、下一步所需执行的指令及接下来的行进方向;(2) 进展监控器,以确保共定位的指令正确反映导航进度。我们在一个标准基准上测试了我们的自我监控代理,并通过一系列消融研究分析了所提出方法的主要组成部分的作用。利用我们提出的方法,在未见过的测试集上成功率达到显著提升(绝对增长8%),从而确立了新的技术前沿。代码可在 https://github.com/chihyaoma/selfmonitoring-agent 获取。