il y a 17 jours

Vers l'apprentissage d'un Agent Générique pour la Navigation Vision-Langage par Pré-entraînement

Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao

Résumé

Apprendre à naviguer dans un environnement visuel à l’aide d’instructions en langage naturel constitue une tâche difficile, en raison de la grande variabilité des entrées multimodales pour l’agent, ainsi que du manque souvent de données d’entraînement disponibles pour de nouvelles tâches. Dans cet article, nous proposons le premier paradigme de pré-entraînement et de fine-tuning pour les tâches de navigation vision-langage (VLN). En s’entraînant de manière auto-supervisée sur un grand volume de triplets image-texte-action, le modèle pré-entraîné acquiert des représentations génériques des environnements visuels et des instructions linguistiques. Ce modèle peut être facilement intégré comme composant direct dans les architectures existantes de navigation vision-langage, donnant lieu à l’agent proposé appelé Prevalent. Celui-ci apprend de manière plus efficace sur de nouvelles tâches et généralise mieux dans des environnements auparavant inconnus. Les performances sont validées sur trois tâches VLN. Sur le benchmark Room-to-Room, notre modèle améliore l’état de l’art, passant de 47 % à 51 % en taux de réussite pondéré par la longueur du trajet. En outre, les représentations apprises sont transférables à d’autres tâches VLN. Sur deux tâches récentes, la navigation vision-dialogue et « Help, Anna! », l’approche proposée Prevalent permet d’obtenir des améliorations significatives par rapport aux méthodes existantes, atteignant un nouveau record d’état de l’art.