HyperAIHyperAI
vor 11 Tagen

Retouchdown: Hinzufügen eines Touchdowns zu StreetLearn als ein teilbares Ressourcen für Sprachgrundungsaufgaben im Street View

Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski
Retouchdown: Hinzufügen eines Touchdowns zu StreetLearn als ein teilbares Ressourcen für Sprachgrundungsaufgaben im Street View
Abstract

Der Touchdown-Datensatz (Chen et al., 2019) enthält von menschlichen Annotatoren erstellte Anweisungen zur Navigation durch die Straßen von New York City sowie zur Lösung räumlicher Beschreibungen an einer bestimmten Position. Um der breiteren Forschungsgemeinschaft die effektive Arbeit mit den Touchdown-Aufgaben zu ermöglichen, veröffentlichen wir öffentlich die 29.000 rohen Street-View-Panoramen, die für Touchdown benötigt werden. Wir folgen dem Prozess, der auch bei der Veröffentlichung des StreetLearn-Datensatzes (Mirowski et al., 2019) angewendet wurde, um die Panoramen auf personenbezogene Informationen zu überprüfen und diese gegebenenfalls zu verschwimmen. Diese Panoramen wurden dem StreetLearn-Datensatz hinzugefügt und können über denselben Prozess wie zuvor für StreetLearn abgerufen werden. Zudem stellen wir eine Referenzimplementierung für beide Touchdown-Aufgaben bereit: Vision-and-Language-Navigation (VLN) und räumliche Beschreibungslösung (SDR). Wir vergleichen unsere Modellergebnisse mit jenen aus Chen et al. (2019) und zeigen, dass die von uns dem StreetLearn-Datensatz hinzugefügten Panoramen beide Touchdown-Aufgaben vollständig unterstützen und effektiv für weitere Forschung und Vergleiche genutzt werden können.

Retouchdown: Hinzufügen eines Touchdowns zu StreetLearn als ein teilbares Ressourcen für Sprachgrundungsaufgaben im Street View | Neueste Forschungsarbeiten | HyperAI