17 天前

Retouchdown：在StreetLearn中添加触地（Touchdown）作为街景中语言 grounding 任务的可共享资源

Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski

摘要

Touchdown数据集（Chen等，2019）由人工标注者提供纽约市街道导航的指令，以及在特定位置解析空间描述的指导信息。为使更广泛的科研群体能够高效开展Touchdown相关任务的研究，我们公开发布完成该任务所需的29,000张原始街景全景图像。我们参照StreetLearn数据集发布时所采用的流程（Mirowski等，2019），对全景图像进行个人身份信息检查，并在必要时进行模糊处理。这些图像已整合至StreetLearn数据集中，可通过与此前获取StreetLearn数据相同的方式下载。此外，我们还为Touchdown任务中的两项核心任务——视觉与语言导航（Vision-and-Language Navigation, VLN）和空间描述解析（Spatial Description Resolution, SDR）——提供了参考实现代码。我们将本研究模型的实验结果与Chen等（2019）报告的结果进行对比，结果表明，我们新增至StreetLearn数据集的全景图像能够完整支持两项Touchdown任务，并可有效用于后续研究与性能比较。