Apprentissage multitâche indépendant de l’environnement pour la navigation fondée sur le langage naturel

Les récents efforts de recherche ont permis d’étudier la navigation guidée par le langage naturel dans des environnements photoréalistes, par exemple en suivant des instructions exprimées en langage naturel ou en engageant des dialogues. Toutefois, les méthodes existantes ont tendance à surajuster les données d’entraînement dans les environnements connus et à se généraliser mal dans des environnements auparavant inconnus. Pour réduire l’écart entre les environnements vus et ceux non vus, nous proposons d’apprendre un modèle de navigation généralisable à partir de deux perspectives novatrices : (1) nous introduisons un modèle de navigation multitâche capable d’être entraîné de manière fluide sur les tâches de Navigation Vision-Language (VLN) et de Navigation à partir de l’historique de dialogue (NDH), profitant ainsi d’une guidance linguistique plus riche et permettant une transfert efficace des connaissances entre tâches ; (2) nous proposons d’apprendre des représentations insensibles à l’environnement pour la politique de navigation, qui restent invariantes par rapport aux environnements rencontrés durant l’entraînement, permettant ainsi une meilleure généralisation sur des environnements inconnus. Des expériences étendues montrent que l’apprentissage multitâche insensible à l’environnement réduit significativement l’écart de performance entre environnements vus et non vus, et que l’agent de navigation ainsi entraîné surpasser les méthodes de référence sur les environnements inconnus de 16 % (mesure relative du taux de réussite) pour la tâche VLN et de 120 % (progrès vers le but) pour la tâche NDH. Notre soumission au classement CVDN établit une nouvelle référence état de l’art pour la tâche NDH sur le jeu de test réservé. Le code est disponible à l’adresse suivante : https://github.com/google-research/valan.