Transformateur multimodal conscient de l'histoire pour la navigation vision-langage

La navigation vision-langage (VLN) vise à concevoir des agents visuels autonomes capables de suivre des instructions et de se déplacer dans des scènes réelles. Afin de mémoriser les lieux déjà visités ainsi que les actions précédemment effectuées, la plupart des approches actuelles pour la VLN utilisent une mémoire basée sur des états récurrents. À la place, nous introduisons un Transformer multimodal conscient de l’histoire (HAMT), conçu pour intégrer une histoire à long terme dans le processus de prise de décision multimodale. Le HAMT encode efficacement l’ensemble des observations panoramiques passées grâce à un transformateur vision hiérarchique (ViT), qui procède en trois étapes : d’abord, il encode chaque image individuellement à l’aide d’un ViT ; ensuite, il modélise les relations spatiales entre les images au sein d’une observation panoramique ; enfin, il prend en compte les relations temporelles entre les panoramas au cours de l’histoire. Ensuite, il combine conjointement le texte, l’histoire et l’observation actuelle pour prédire l’action suivante. Nous entraînons d’abord le HAMT de manière end-to-end à l’aide de plusieurs tâches proxy, telles que la prédiction d’action à un pas ou la prédiction de relations spatiales, puis appliquons l’apprentissage par renforcement afin d’améliorer davantage la politique de navigation. Le HAMT atteint un nouveau record sur une large gamme de tâches de VLN, notamment la VLN avec instructions à très fine granularité (R2R, RxR), les instructions de haut niveau (R2R-Last, REVERIE), les dialogues (CVDN), ainsi que la VLN à horizon long (R4R, R2R-Back). Nous démontrons que le HAMT est particulièrement efficace pour les tâches de navigation impliquant des trajectoires plus longues.