Renforcement de l'appariement intermodal et apprentissage par imitation auto-supervisé pour la navigation vision-langue

La navigation vision-langue (VLN) est la tâche de guider un agent incarné pour exécuter des instructions en langage naturel dans des environnements réels en 3D. Dans cet article, nous examinons comment aborder trois défis critiques pour cette tâche : l'ancrage intermodal, les retours mal posés et les problèmes de généralisation. Tout d'abord, nous proposons une nouvelle approche de Correspondance Intermodale Renforcée (RCM) qui impose l'ancrage intermodal à la fois localement et globalement par le biais de l'apprentissage par renforcement (RL). Plus précisément, un critique de correspondance est utilisé pour fournir une récompense intrinsèque visant à encourager la correspondance globale entre les instructions et les trajectoires, tandis qu'un navigateur raisonné est employé pour réaliser l'ancrage intermodal dans la scène visuelle locale. L'évaluation sur un jeu de données de référence VLN montre que notre modèle RCM dépasse significativement les méthodes précédentes de 10 % en termes de SPL et atteint les nouvelles performances de pointe. Pour améliorer la généralisabilité de la politique apprise, nous introduisons également une méthode d'Apprentissage par Imitation Auto-supervisé (SIL) permettant d'explorer des environnements inconnus en imitant ses propres décisions passées et judicieuses. Nous démontrons que SIL peut approximer une politique meilleure et plus efficace, ce qui réduit considérablement l'écart de taux de réussite entre les environnements connus et inconnus (de 30,7 % à 11,7 %).