EnvEdit : Édition de l'Environnement pour la Navigation Vision-Texte

Dans la navigation vision-langage (VLN), un agent doit se déplacer dans un environnement en se basant sur des instructions en langage naturel. En raison de la quantité limitée de données disponibles pour l'entraînement de l'agent ainsi que de la diversité finie des environnements de navigation, il est difficile pour l'agent de généraliser à de nouveaux environnements inédits. Pour répondre à ce défi, nous proposons EnvEdit, une méthode d'augmentation de données qui crée de nouveaux environnements en modifiant des environnements existants, utilisés pour entraîner un agent plus généralisable. Nos environnements augmentés peuvent différer des environnements observés selon trois aspects variés : le style, l'apparence des objets et les catégories d'objets. L'entraînement sur ces environnements modifiés empêche l'agent de surajuster aux environnements existants et améliore sa capacité à généraliser à de nouveaux environnements inconnus. Expérimentalement, sur les jeux de données Room-to-Room et Room-Across-Room multilingue, nous montrons que notre méthode EnvEdit permet d'obtenir des améliorations significatives sur tous les indicateurs, tant pour les agents VLN pré-entraînés que non pré-entraînés, et atteint un nouveau record sur le classement de test. Nous démontrons également que l'agrégation (ensemblage) d'agents VLN entraînés sur différents environnements modifiés renforce leur complémentarité. Le code et les données sont disponibles à l'adresse suivante : https://github.com/jialuli-luka/EnvEdit