Touchdown: Natürlichsprachliche Navigation und räumliches Schließen in visuellen Straßenumgebungen

Wir untersuchen das Problem der gemeinsamen Inferenz von Sprache und Vision durch eine Navigations- und räumliche Denkaufgabe. Wir stellen die Touchdown-Aufgabe und den dazugehörigen Datensatz vor, bei denen ein Agent zunächst Navigationsanweisungen in einer realen visuellen städtischen Umgebung befolgen muss und anschließend einen Ort beschreiben soll, der in natürlicher Sprache formuliert ist, um ein verstecktes Objekt am Zielort zu finden. Der Datensatz enthält 9.326 Beispiele von englischen Anweisungen und räumlichen Beschreibungen, die mit Demonstrationen gekoppelt sind. Eine empirische Analyse zeigt, dass die Daten eine offene Herausforderung für bestehende Methoden darstellen, während eine qualitative sprachliche Analyse aufzeigt, dass die Daten eine reichere Verwendung von räumlichem Denken im Vergleich zu verwandten Ressourcen aufweisen.