6 个月前

Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev

摘要

遵循语言指令在未知环境中导航是自主具身智能体面临的一项挑战性任务。该智能体不仅需要将语言指令与视觉场景进行语义关联，还需通过环境探索以抵达目标位置。本文提出一种双尺度图Transformer模型（DUET），用于联合实现长期动作规划与细粒度跨模态理解。我们实时构建拓扑地图，以支持在全局动作空间中的高效探索。为平衡大规模动作空间推理的复杂性与细粒度语言语义定位的需求，DUET通过图Transformer动态融合局部观测的细粒度编码与全局地图的粗粒度编码。实验结果表明，所提方法DUET在面向目标的视觉-语言导航（VLN）基准数据集REVERIE和SOON上显著优于当前最优方法，同时在细粒度VLN基准R2R上也显著提升了任务成功率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev

摘要

遵循语言指令在未知环境中导航是自主具身智能体面临的一项挑战性任务。该智能体不仅需要将语言指令与视觉场景进行语义关联，还需通过环境探索以抵达目标位置。本文提出一种双尺度图Transformer模型（DUET），用于联合实现长期动作规划与细粒度跨模态理解。我们实时构建拓扑地图，以支持在全局动作空间中的高效探索。为平衡大规模动作空间推理的复杂性与细粒度语言语义定位的需求，DUET通过图Transformer动态融合局部观测的细粒度编码与全局地图的粗粒度编码。实验结果表明，所提方法DUET在面向目标的视觉-语言导航（VLN）基准数据集REVERIE和SOON上显著优于当前最优方法，同时在细粒度VLN基准R2R上也显著提升了任务成功率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供