17 天前

Retouchdown:在StreetLearn中添加触地(Touchdown)作为街景中语言 grounding 任务的可共享资源

Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski
Retouchdown:在StreetLearn中添加触地(Touchdown)作为街景中语言 grounding 任务的可共享资源
摘要

Touchdown数据集(Chen等,2019)由人工标注者提供纽约市街道导航的指令,以及在特定位置解析空间描述的指导信息。为使更广泛的科研群体能够高效开展Touchdown相关任务的研究,我们公开发布完成该任务所需的29,000张原始街景全景图像。我们参照StreetLearn数据集发布时所采用的流程(Mirowski等,2019),对全景图像进行个人身份信息检查,并在必要时进行模糊处理。这些图像已整合至StreetLearn数据集中,可通过与此前获取StreetLearn数据相同的方式下载。此外,我们还为Touchdown任务中的两项核心任务——视觉与语言导航(Vision-and-Language Navigation, VLN)和空间描述解析(Spatial Description Resolution, SDR)——提供了参考实现代码。我们将本研究模型的实验结果与Chen等(2019)报告的结果进行对比,结果表明,我们新增至StreetLearn数据集的全景图像能够完整支持两项Touchdown任务,并可有效用于后续研究与性能比较。