Navigation Vision-Langue : Interprétation d'instructions de navigation visuellement ancrées dans des environnements réels

Un robot capable d'exécuter une instruction en langage naturel a toujours été un rêve, même avant que la série animée Les Jetsons ne imagine une vie de loisirs facilitée par une flotte de robots attentifs. Ce rêve reste obstinément éloigné. Cependant, les récentes avancées dans les méthodes de vision et de langage ont réalisé des progrès incroyables dans des domaines étroitement liés. Cette évolution est significative car un robot interprétant une instruction de navigation en langage naturel sur la base de ce qu'il voit effectue un processus de vision et de langage similaire à celui du Visual Question Answering (VQA). Les deux tâches peuvent être interprétées comme des problèmes de traduction séquentielle ancrés visuellement, et nombre des mêmes méthodes s'appliquent. Pour permettre et encourager l'application des méthodes de vision et de langage au problème d'interprétation des instructions de navigation ancrées visuellement, nous présentons le Matterport3D Simulator -- un environnement d'apprentissage par renforcement à grande échelle basé sur des images réelles. En utilisant ce simulateur, qui pourra à l'avenir soutenir une variété de tâches incarnées de vision et de langage, nous fournissons le premier ensemble de données de référence pour la navigation en langage naturel ancrée visuellement dans des bâtiments réels -- l'ensemble de données Room-to-Room (R2R).