HyperAIHyperAI

Command Palette

Search for a command to run...

HOP : Pré-entraînement conscient des historiques et de l'ordre pour la navigation vision-langage

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

Résumé

La pré-formation a été adoptée dans quelques travaux récents pour la Navigation Vision-Texte (VLN). Toutefois, les méthodes de pré-formation précédentes pour la VLN souffrent soit d’un manque de capacité à prédire les actions futures, soit d’une ignorance du contexte de trajectoire, deux aspects essentiels pour un processus de navigation gourmande. Dans ce travail, afin de favoriser l’apprentissage de la correspondance spatio-temporelle visuelle-textuelle ainsi que la capacité de prise de décision de l’agent, nous proposons un nouveau paradigme de pré-formation conscient de l’historique et de l’ordre (HOP), basé sur des objectifs spécifiques à la VLN, exploitant les observations passées et permettant la prédiction des actions futures. Plus précisément, outre les tâches couramment utilisées de Modélisation du Langage Masqué (MLM) et d’Appariement Trajectoire-Instruction (TIM), nous avons conçu deux tâches proxy pour modéliser l’information d’ordre temporel : la Modélisation de l’Ordre de Trajectoire (TOM) et la Modélisation de l’Ordre de Groupe (GOM). En outre, notre prédiction d’actions de navigation est renforcée par l’introduction de la tâche de Prédiction d’Action avec Historique (APH), qui prend en compte les perceptions visuelles antérieures. Des résultats expérimentaux étendus sur quatre tâches VLN en aval (R2R, REVERIE, NDH, RxR) démontrent l’efficacité de notre méthode par rapport à plusieurs agents de pointe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp