HyperAIHyperAI

Command Palette

Search for a command to run...

视觉-语言导航:在真实环境中解释基于视觉的导航指令

Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton van den Hengel

摘要

能够执行自然语言指令的机器人一直是人们梦寐以求的目标,早在《杰森一家》(The Jetsons)动画系列中就设想了由一群贴心的机器人助手协助的生活。然而,这一梦想仍然遥不可及。不过,近期在视觉和语言方法上的进展已经在相关领域取得了令人难以置信的突破。这一点尤为重要,因为基于所见内容解释自然语言导航指令的机器人实际上是在进行类似于视觉问答(Visual Question Answering)的过程。这两项任务都可以被解读为基于视觉的序列到序列翻译问题,许多相同的方法在这两个领域都是适用的。为了促进和支持将视觉和语言方法应用于解释基于视觉的导航指令的问题,我们推出了Matterport3D模拟器——一个基于真实图像的大规模强化学习环境。利用这一模拟器,未来可以支持多种具身化的视觉和语言任务,我们提供了首个在真实建筑物中进行基于视觉的自然语言导航的基准数据集——Room-to-Room(R2R)数据集。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供