HyperAIHyperAI

Command Palette

Search for a command to run...

Touchdown: Natürlichsprachliche Navigation und räumliches Schließen in visuellen Straßenumgebungen

Howard Chen Alane Suhr Dipendra Misra Noah Snavely Yoav Artzi

Zusammenfassung

Wir untersuchen das Problem der gemeinsamen Inferenz von Sprache und Vision durch eine Navigations- und räumliche Denkaufgabe. Wir stellen die Touchdown-Aufgabe und den dazugehörigen Datensatz vor, bei denen ein Agent zunächst Navigationsanweisungen in einer realen visuellen städtischen Umgebung befolgen muss und anschließend einen Ort beschreiben soll, der in natürlicher Sprache formuliert ist, um ein verstecktes Objekt am Zielort zu finden. Der Datensatz enthält 9.326 Beispiele von englischen Anweisungen und räumlichen Beschreibungen, die mit Demonstrationen gekoppelt sind. Eine empirische Analyse zeigt, dass die Daten eine offene Herausforderung für bestehende Methoden darstellen, während eine qualitative sprachliche Analyse aufzeigt, dass die Daten eine reichere Verwendung von räumlichem Denken im Vergleich zu verwandten Ressourcen aufweisen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Touchdown: Natürlichsprachliche Navigation und räumliches Schließen in visuellen Straßenumgebungen | Paper | HyperAI