HyperAIHyperAI
il y a 13 jours

Apprendre à s’arrêter : une approche simple mais efficace pour la navigation vision-langage en milieu urbain

Jiannan Xiang, Xin Eric Wang, William Yang Wang
Apprendre à s’arrêter : une approche simple mais efficace pour la navigation vision-langage en milieu urbain
Résumé

La navigation vision-langage (VLN) est une tâche d'ancrage du langage naturel dans laquelle un agent apprend à suivre des instructions linguistiques et à se déplacer vers des destinations spécifiées dans des environnements réels. Un défi majeur réside dans la reconnaissance et l'arrêt au bon endroit, particulièrement dans des environnements extérieurs complexes. Les méthodes existantes traitent l'action STOP de manière équivalente aux autres actions, ce qui entraîne des comportements indésirables : l'agent échoue fréquemment à s'arrêter à la destination, même s'il suit probablement le bon itinéraire. Nous proposons donc L2Stop, un module de politique simple mais efficace qui distingue clairement l'action STOP des autres actions. Notre approche atteint un nouveau record sur le jeu de données urbain exigeant Touchdown, surpassant la méthode de référence de 6,89 % (amélioration absolue) en termes de succès pondéré par la distance d'édition (SED).

Apprendre à s’arrêter : une approche simple mais efficace pour la navigation vision-langage en milieu urbain | Articles de recherche récents | HyperAI