Apprentissage à partir d'environnements 3D non étiquetés pour la navigation vision-langage

Dans la navigation vision-langage (VLN), un agent incarné doit se déplacer dans des environnements 3D réalistes en suivant des instructions exprimées en langage naturel. Un obstacle majeur des approches actuelles de VLN réside dans le manque de données d'entraînement suffisantes, ce qui entraîne une généralisation insatisfaisante aux environnements inédits. Bien que les données VLN soient généralement collectées manuellement, cette approche s'avère coûteuse et ne permet pas une scalabilité efficace. Dans ce travail, nous abordons le problème de la rareté des données en proposant une méthode automatique pour créer un grand jeu de données VLN à partir de 900 bâtiments 3D non étiquetés provenant de HM3D. Pour chaque bâtiment, nous construisons un graphe de navigation et transférons les prédictions d'objets issues de vues 2D afin d'obtenir des étiquettes d'objets pseudo-3D, en exploitant la cohérence entre vues. Ensuite, nous affinons un modèle linguistique pré-entraîné en utilisant ces étiquettes d'objets pseudo comme indicateurs, afin de réduire l’écart entre modalités lors de la génération d'instructions. Le jeu de données résultant, HM3D-AutoVLN, est d’un ordre de grandeur plus volumineux que les jeux de données VLN existants en termes d’environnements de navigation et d'instructions. Nous démontrons expérimentalement que HM3D-AutoVLN améliore significativement la capacité de généralisation des modèles VLN obtenus. Sur le critère SPL, notre approche atteint une amélioration de 7,1 % et 8,1 % par rapport à l’état de l’art sur les ensembles de validation inédits des jeux de données REVERIE et SOON, respectivement.