Room-Across-Room : Navigation Vision-Texte Multilingue avec Ancrage Spatiotemporel Densifié

Nous introduisons Room-Across-Room (RxR), un nouveau jeu de données Vision-et-Language Navigation (VLN). RxR est multilingue (anglais, hindi et télougou) et plus vaste (avec plus de trajets et d'instructions) que les autres jeux de données VLN. Il met l'accent sur le rôle du langage dans la navigation en vision et langage en corrigeant des biais connus dans les trajets et en suscitant davantage de références à des entités visibles. De plus, chaque mot d'une instruction est synchronisé temporellement avec les poses virtuelles des créateurs et validateurs d'instructions. Nous établissons des scores de référence pour les configurations monolingues et multilingues, ainsi que pour l'apprentissage multitâche incluant les annotations Room-to-Room. Nous fournissons également des résultats pour un modèle qui apprend à partir de traces de poses synchronisées en se concentrant uniquement sur les portions de panorama observées lors des démonstrations humaines. La taille, la portée et le niveau de détail de RxR élargissent considérablement les frontières de la recherche sur les agents linguistiques incarnés dans des environnements simulés et photoréalistes.