Navigation Vision-Language par Mixup Environnemental Aléatoire

Les tâches de navigation vision-langage (VLN) exigent qu’un agent se déplace pas à pas tout en percevant des observations visuelles et en comprenant une instruction en langage naturel. Un biais important dans les données, dû au rapport disproportionné entre la taille limitée des données et l’étendue vaste de l’espace de navigation, rend cette tâche particulièrement difficile. Les travaux antérieurs ont proposé diverses méthodes d’augmentation de données afin de réduire ce biais. Toutefois, ces approches ne traitent pas explicitement la réduction du biais de données entre différentes scènes d’habitat. Par conséquent, l’agent tend à surapprendre aux scènes déjà vues et à obtenir de mauvaises performances dans des scènes inconnues. Pour résoudre ce problème, nous proposons une méthode appelée Random Environmental Mixup (REM), qui génère des scènes croisées entre maisons à partir de données augmentées par mélange d’environnements. Plus précisément, nous sélectionnons d’abord des points de vue clés en fonction du graphe de connexion des pièces pour chaque scène. Ensuite, nous connectons croisément les points de vue clés provenant de scènes différentes afin de construire des scènes augmentées. Enfin, nous générons des paires instruction-trajectoire augmentées dans ces scènes croisées. Les résultats expérimentaux sur des jeux de données standard montrent que nos données augmentées via REM permettent à l’agent de réduire l’écart de performance entre les environnements vus et inconnus, tout en améliorant les performances globales, ce qui fait de notre modèle l’approche la plus performante actuellement sur le benchmark standard de VLN. Le code source est disponible à l’adresse suivante : https://github.com/LCFractal/VLNREM.