6 个月前

自然语言处理

自然语言处理

Alexander Ku Peter Anderson Roma Patel Eugene Ie Jason Baldridge

摘要

我们提出了Room-Across-Room（RxR），一个全新的视觉与语言导航（Vision-and-Language Navigation, VLN）数据集。RxR具有多语言特性（支持英语、印地语和泰卢固语），且规模大于现有的其他VLN数据集，包含更多路径和导航指令。该数据集通过缓解路径中存在的已知偏差，并引导更多对可见实体的引用，突出了语言在VLN任务中的关键作用。此外，每条指令中的每个词语均与指令创建者和验证者的虚拟位姿进行时间对齐。我们为单语言和多语言场景，以及引入Room-to-Room标注时的多任务学习设定提供了基线性能指标。同时，我们还报告了一种模型的实验结果，该模型通过仅关注人类示范中所关注的全景图像片段，从同步的位姿轨迹中进行学习。RxR在规模、覆盖范围和细节程度上的显著提升，极大地拓展了在模拟、照片级真实感环境中具身语言智能体研究的前沿。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Alexander Ku Peter Anderson Roma Patel Eugene Ie Jason Baldridge

摘要

我们提出了Room-Across-Room（RxR），一个全新的视觉与语言导航（Vision-and-Language Navigation, VLN）数据集。RxR具有多语言特性（支持英语、印地语和泰卢固语），且规模大于现有的其他VLN数据集，包含更多路径和导航指令。该数据集通过缓解路径中存在的已知偏差，并引导更多对可见实体的引用，突出了语言在VLN任务中的关键作用。此外，每条指令中的每个词语均与指令创建者和验证者的虚拟位姿进行时间对齐。我们为单语言和多语言场景，以及引入Room-to-Room标注时的多任务学习设定提供了基线性能指标。同时，我们还报告了一种模型的实验结果，该模型通过仅关注人类示范中所关注的全景图像片段，从同步的位姿轨迹中进行学习。RxR在规模、覆盖范围和细节程度上的显著提升，极大地拓展了在模拟、照片级真实感环境中具身语言智能体研究的前沿。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供