HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur multimodal conscient de l'histoire pour la navigation vision-langage

Shizhe Chen Pierre-Louis Guhur Cordelia Schmid Ivan Laptev

Résumé

La navigation vision-langage (VLN) vise à concevoir des agents visuels autonomes capables de suivre des instructions et de se déplacer dans des scènes réelles. Afin de mémoriser les lieux déjà visités ainsi que les actions précédemment effectuées, la plupart des approches actuelles pour la VLN utilisent une mémoire basée sur des états récurrents. À la place, nous introduisons un Transformer multimodal conscient de l’histoire (HAMT), conçu pour intégrer une histoire à long terme dans le processus de prise de décision multimodale. Le HAMT encode efficacement l’ensemble des observations panoramiques passées grâce à un transformateur vision hiérarchique (ViT), qui procède en trois étapes : d’abord, il encode chaque image individuellement à l’aide d’un ViT ; ensuite, il modélise les relations spatiales entre les images au sein d’une observation panoramique ; enfin, il prend en compte les relations temporelles entre les panoramas au cours de l’histoire. Ensuite, il combine conjointement le texte, l’histoire et l’observation actuelle pour prédire l’action suivante. Nous entraînons d’abord le HAMT de manière end-to-end à l’aide de plusieurs tâches proxy, telles que la prédiction d’action à un pas ou la prédiction de relations spatiales, puis appliquons l’apprentissage par renforcement afin d’améliorer davantage la politique de navigation. Le HAMT atteint un nouveau record sur une large gamme de tâches de VLN, notamment la VLN avec instructions à très fine granularité (R2R, RxR), les instructions de haut niveau (R2R-Last, REVERIE), les dialogues (CVDN), ainsi que la VLN à horizon long (R4R, R2R-Back). Nous démontrons que le HAMT est particulièrement efficace pour les tâches de navigation impliquant des trajectoires plus longues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp