Analyse de la généralisation de la navigation vision-langage à des zones extérieures inconnues

La navigation vision-langage (VLN) constitue une tâche exigeante d’entendement linguistique ancrée visuellement. Étant donné une instruction de navigation en langage naturel, un agent visuel interagit avec un environnement basé sur un graphe, doté d’images panoramiques, dans le but de suivre le trajet décrit. La plupart des travaux antérieurs ont porté sur des scénarios intérieurs, où les meilleurs résultats ont été obtenus pour des trajets similaires à ceux utilisés lors de l’entraînement, avec une chute marquée des performances lors de l’évaluation sur des environnements inconnus. Nous nous concentrons sur la VLN dans des scénarios extérieurs et constatons qu’en contraste avec la VLN intérieure, la majorité de l’amélioration observée sur des données inconnues dans les environnements extérieurs provient d’éléments spécifiques au graphe de l’environnement, tels que l’encodage du type de carrefour ou le delta d’orientation, tandis que l’information visuelle joue un rôle très mineur dans la généralisation de la VLN vers des zones extérieures inconnues. Ces résultats révèlent un biais en faveur des représentations graphiques spécifiques des environnements urbains, ce qui implique que les tâches de VLN doivent s’étendre à une échelle plus grande et à une diversité géographique accrue.