HyperAIHyperAI
il y a 17 jours

BabyWalk : Avancer plus loin dans la navigation vision-langage en faisant des petits pas

Wang Zhu, Hexiang Hu, Jiacheng Chen, Zhiwei Deng, Vihan Jain, Eugene Ie, Fei Sha
BabyWalk : Avancer plus loin dans la navigation vision-langage en faisant des petits pas
Résumé

Apprendre à suivre des instructions est fondamental pour les agents autonomes en navigation vision-langage (VLN). Dans cet article, nous étudions la capacité d’un agent à naviguer sur de longs parcours lorsqu’il apprend à partir d’un corpus composé d’instructions courtes. Nous montrons que les agents les plus avancés actuellement disponibles ne généralisent pas efficacement. À cette fin, nous proposons BabyWalk, un nouvel agent VLN apprenant à naviguer en décomposant les instructions longues en segments plus courts (appelés BabySteps) qu’il exécute séquentiellement. Un mécanisme particulier de mémoire tampon est utilisé par l’agent pour transformer ses expériences passées en contextes utiles pour les étapes futures. Le processus d’apprentissage se déroule en deux phases. Dans la première phase, l’agent utilise l’apprentissage par imitation à partir de démonstrations afin de réaliser les BabySteps. Dans la deuxième phase, l’agent applique un apprentissage par renforcement structuré selon un curriculum afin de maximiser les récompenses sur des tâches de navigation avec des instructions de plus en plus longues. Nous avons conçu deux nouveaux jeux de données de référence (dédiés aux tâches de navigation longue) et les avons utilisés conjointement avec les jeux existants pour évaluer la capacité de généralisation de BabyWalk. Les résultats expérimentaux montrent que BabyWalk atteint des performances de pointe sur plusieurs métriques, en particulier en suivant efficacement des instructions longues. Les codes source et les jeux de données sont disponibles sur notre page de projet : https://github.com/Sha-Lab/babywalk.

BabyWalk : Avancer plus loin dans la navigation vision-langage en faisant des petits pas | Articles de recherche récents | HyperAI