Vision-und-Sprach-Navigation: Interpretation visuell begründeter Navigationsanweisungen in realen Umgebungen

Ein Roboter, der natürlichsprachliche Anweisungen ausführen kann, war schon lange vor der Zeichentrickserie „Die Jetsons“ ein Traum, die ein Leben des Müßiggangs mit einer Flotte aufmerksamer Roboterhelfer vorgestellt hat. Dies ist ein Traum, der sich hartnäckig in weiter Ferne befindet. Dennoch haben jüngste Fortschritte in den Bereichen Vision und Sprache erstaunliche Erfolge in eng verwandten Gebieten erzielt. Dies ist von Bedeutung, da ein Roboter, der eine natürlichsprachliche Navigationsanweisung basierend auf dem, was er sieht, interpretiert, einen Prozess durchführt, der dem visuellen Fragenbeantworten (Visual Question Answering) sehr ähnlich ist. Beide Aufgaben können als visuell verankerte Sequenz-zu-Sequenz-Übersetzungsprobleme interpretiert werden, und viele der gleichen Methoden sind anwendbar. Um die Anwendung von Vision-und-Sprache-Methoden auf das Problem der Interpretation visuell verankerter Navigationsanweisungen zu ermöglichen und zu fördern, präsentieren wir den Matterport3D-Simulator – eine umfangreiche Reinforcement-Learning-Umgebung basierend auf realen Bildern. Mit Hilfe dieses Simulators, der in Zukunft eine Vielzahl von verkörperten Vision-und-Sprache-Aufgaben unterstützen kann, stellen wir den ersten Benchmark-Datensatz für die Interpretation natürlichsprachlicher Navigationsanweisungen in realen Gebäuden vor – den Room-to-Room (R2R)-Datensatz.