BEVBert : Pré-entraînement multimodal de cartes pour la navigation guidée par le langage

L’entraînement préalable à grande échelle a montré des résultats prometteurs sur la tâche de navigation vision-langage (VLN). Toutefois, la plupart des méthodes d’entraînement préalable existantes utilisent des panoramas discrets pour apprendre les associations visuelles-textuelles. Cela oblige le modèle à corrélérer implicitement des observations incomplètes et redondantes au sein des panoramas, ce qui peut nuire à la compréhension spatiale de l’agent. Nous proposons donc un nouveau paradigme d’entraînement préalable basé sur les cartes, conçu pour être conscient de l’espace, dans le cadre de la VLN. Plus précisément, nous construisons une carte métrique locale pour agréger explicitement les observations incomplètes et éliminer les redondances, tout en modélisant les dépendances de navigation dans une carte topologique globale. Ce design hybride permet de concilier efficacement les exigences de la VLN en matière de raisonnement à court terme et de planification à long terme. Ensuite, à partir de cette carte hybride, nous concevons un cadre d’entraînement préalable visant à apprendre une représentation multimodale de la carte, ce qui améliore le raisonnement croisés modalités conscient de l’espace, favorisant ainsi la navigation guidée par le langage. Des expériences étendues démontrent l’efficacité de cette approche d’entraînement préalable basée sur les cartes pour la VLN, et la méthode proposée atteint l’état de l’art sur quatre benchmarks de VLN.