Transfert de style de texte multimodal pour la navigation vision-langage en extérieur

L’un des sujets les plus complexes en traitement du langage naturel (NLP) est la compréhension et le raisonnement linguistiques ancrés visuellement. La navigation vision-langage en extérieur (VLN) constitue une telle tâche, dans laquelle un agent suit des instructions en langage naturel afin de se déplacer dans un environnement urbain réel. En raison du manque d'instructions annotées par des humains qui décrivent des scènes urbaines complexes, la VLN en extérieur demeure un défi majeur à relever. Ce papier présente une méthode d’apprentissage de transfert de style de texte multimodal (MTST) et exploite des ressources multimodales externes afin de pallier la rareté des données dans les tâches de navigation en extérieur. Nous enrichissons tout d’abord les données de navigation en transférant le style des instructions générées par l’API Google Maps, puis pré-entraînons le navigateur sur un ensemble de données extérieures augmentées. Les résultats expérimentaux montrent que notre approche MTST est indépendante du modèle, et qu’elle dépasse significativement les modèles de référence sur la tâche de VLN en extérieur, avec une amélioration de 8,7 % du taux de réussite de la tâche sur l’ensemble de test.