13 天前

跨房间:基于密集时空定位的多语言视觉-语言导航

Alexander Ku, Peter Anderson, Roma Patel, Eugene Ie, Jason Baldridge
跨房间:基于密集时空定位的多语言视觉-语言导航
摘要

我们提出了Room-Across-Room(RxR),一个全新的视觉与语言导航(Vision-and-Language Navigation, VLN)数据集。RxR具有多语言特性(支持英语、印地语和泰卢固语),且规模大于现有的其他VLN数据集,包含更多路径和导航指令。该数据集通过缓解路径中存在的已知偏差,并引导更多对可见实体的引用,突出了语言在VLN任务中的关键作用。此外,每条指令中的每个词语均与指令创建者和验证者的虚拟位姿进行时间对齐。我们为单语言和多语言场景,以及引入Room-to-Room标注时的多任务学习设定提供了基线性能指标。同时,我们还报告了一种模型的实验结果,该模型通过仅关注人类示范中所关注的全景图像片段,从同步的位姿轨迹中进行学习。RxR在规模、覆盖范围和细节程度上的显著提升,极大地拓展了在模拟、照片级真实感环境中具身语言智能体研究的前沿。

跨房间:基于密集时空定位的多语言视觉-语言导航 | 最新论文 | HyperAI超神经