HyperAIHyperAI

Command Palette

Search for a command to run...

通过辅助进度估计实现自我监控的导航代理

Chih-Yao Ma* Jiasen Lu* Zuxuan Wu* Ghassan AlRegib† Zsolt Kira† Richard Socher§ Caiming Xiong§

摘要

视觉-语言导航(Vision-and-Language Navigation, VLN)任务涉及代理在照片级真实的未知环境中遵循导航指令。这一具有挑战性的任务要求代理能够识别哪些指令已经完成,下一步需要执行哪些指令,应该朝哪个方向前进,以及其向目标位置的导航进展。在本文中,我们介绍了一种带有两个互补组件的自我监控代理:(1) 视觉-文本共定位模块,用于从周围图像中确定过去已完成的指令、下一步所需执行的指令及接下来的行进方向;(2) 进展监控器,以确保共定位的指令正确反映导航进度。我们在一个标准基准上测试了我们的自我监控代理,并通过一系列消融研究分析了所提出方法的主要组成部分的作用。利用我们提出的方法,在未见过的测试集上成功率达到显著提升(绝对增长8%),从而确立了新的技术前沿。代码可在 https://github.com/chihyaoma/selfmonitoring-agent 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供