HyperAIHyperAI
il y a 19 jours

HOP : Pré-entraînement conscient des historiques et de l'ordre pour la navigation vision-langage

Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu
HOP : Pré-entraînement conscient des historiques et de l'ordre pour la navigation vision-langage
Résumé

La pré-formation a été adoptée dans quelques travaux récents pour la Navigation Vision-Texte (VLN). Toutefois, les méthodes de pré-formation précédentes pour la VLN souffrent soit d’un manque de capacité à prédire les actions futures, soit d’une ignorance du contexte de trajectoire, deux aspects essentiels pour un processus de navigation gourmande. Dans ce travail, afin de favoriser l’apprentissage de la correspondance spatio-temporelle visuelle-textuelle ainsi que la capacité de prise de décision de l’agent, nous proposons un nouveau paradigme de pré-formation conscient de l’historique et de l’ordre (HOP), basé sur des objectifs spécifiques à la VLN, exploitant les observations passées et permettant la prédiction des actions futures. Plus précisément, outre les tâches couramment utilisées de Modélisation du Langage Masqué (MLM) et d’Appariement Trajectoire-Instruction (TIM), nous avons conçu deux tâches proxy pour modéliser l’information d’ordre temporel : la Modélisation de l’Ordre de Trajectoire (TOM) et la Modélisation de l’Ordre de Groupe (GOM). En outre, notre prédiction d’actions de navigation est renforcée par l’introduction de la tâche de Prédiction d’Action avec Historique (APH), qui prend en compte les perceptions visuelles antérieures. Des résultats expérimentaux étendus sur quatre tâches VLN en aval (R2R, REVERIE, NDH, RxR) démontrent l’efficacité de notre méthode par rapport à plusieurs agents de pointe.

HOP : Pré-entraînement conscient des historiques et de l'ordre pour la navigation vision-langage | Articles de recherche | HyperAI