il y a 16 jours

Une Nouvelle Voie : L’Échelonnage de la Navigation Vision-Texte grâce à des Instructions Synthétiques et l’Apprentissage par Imitation

Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge, Zarana Parekh

Voir les détails de l'article

Une Nouvelle Voie : L’Échelonnage de la Navigation Vision-Texte grâce à des Instructions Synthétiques et l’Apprentissage par Imitation

Résumé

Des études récentes en navigation vision-langage (VLN) entraînent des agents apprentissage par renforcement (RL) à exécuter des instructions de navigation en langage naturel dans des environnements photoréalistes, en vue de développer des robots capables de suivre des instructions humaines. Toutefois, en raison de la rareté des données d'instructions humaines et de la faible diversité des environnements d'entraînement, ces agents peinent encore à maîtriser le repérage sémantique complexe du langage et la compréhension spatiale du langage. L'entraînement préalable sur de grandes bases de données textuelles et d'images-textes issues du web a été largement exploré, mais les améliorations obtenues restent limitées. Nous explorons une augmentation à grande échelle basée sur des instructions synthétiques. Nous utilisons plus de 500 environnements intérieurs capturés sous forme de panoramas à 360 degrés échantillonnés de manière dense, construisons des trajectoires de navigation à travers ces panoramas, puis générons une instruction visuellement ancrée pour chaque trajectoire à l’aide de Marky, un générateur multilingue de haute qualité d’instructions de navigation. Nous synthétisons également des observations d’image depuis de nouveaux points de vue à l’aide d’un GAN image-to-image. Le jeu de données résultant, composé de 4,2 millions de paires instruction-trajectoire, est deux ordres de grandeur plus volumineux que les jeux de données humainement annotés existants, et inclut une plus grande diversité d’environnements et de points de vue. Pour exploiter efficacement ces données à grande échelle, nous entraînons un agent simple basé sur un transformateur par apprentissage par imitation. Sur le jeu de données exigeant RxR, notre approche surpassent tous les agents RL existants, améliorant le score NDTW de l’état de l’art de 71,1 à 79,1 dans les environnements vus, et de 64,6 à 66,8 dans les environnements non vus lors des tests. Ce travail ouvre une nouvelle voie pour améliorer les agents capables de suivre des instructions, en mettant l’accent sur l’apprentissage par imitation à grande échelle et le développement de capacités de génération d’instructions synthétiques.