2 个月前
视觉-语言导航:在真实环境中解释基于视觉的导航指令
Peter Anderson; Qi Wu; Damien Teney; Jake Bruce; Mark Johnson; Niko Sünderhauf; Ian Reid; Stephen Gould; Anton van den Hengel

摘要
能够执行自然语言指令的机器人一直是人们梦寐以求的目标,早在《杰森一家》(The Jetsons)动画系列中就设想了由一群贴心的机器人助手协助的生活。然而,这一梦想仍然遥不可及。不过,近期在视觉和语言方法上的进展已经在相关领域取得了令人难以置信的突破。这一点尤为重要,因为基于所见内容解释自然语言导航指令的机器人实际上是在进行类似于视觉问答(Visual Question Answering)的过程。这两项任务都可以被解读为基于视觉的序列到序列翻译问题,许多相同的方法在这两个领域都是适用的。为了促进和支持将视觉和语言方法应用于解释基于视觉的导航指令的问题,我们推出了Matterport3D模拟器——一个基于真实图像的大规模强化学习环境。利用这一模拟器,未来可以支持多种具身化的视觉和语言任务,我们提供了首个在真实建筑物中进行基于视觉的自然语言导航的基准数据集——Room-to-Room(R2R)数据集。