HyperAIHyperAI

Command Palette

Search for a command to run...

Apprendre à s’arrêter : une approche simple mais efficace pour la navigation vision-langage en milieu urbain

Jiannan Xiang Xin Eric Wang William Yang Wang

Résumé

La navigation vision-langage (VLN) est une tâche d'ancrage du langage naturel dans laquelle un agent apprend à suivre des instructions linguistiques et à se déplacer vers des destinations spécifiées dans des environnements réels. Un défi majeur réside dans la reconnaissance et l'arrêt au bon endroit, particulièrement dans des environnements extérieurs complexes. Les méthodes existantes traitent l'action STOP de manière équivalente aux autres actions, ce qui entraîne des comportements indésirables : l'agent échoue fréquemment à s'arrêter à la destination, même s'il suit probablement le bon itinéraire. Nous proposons donc L2Stop, un module de politique simple mais efficace qui distingue clairement l'action STOP des autres actions. Notre approche atteint un nouveau record sur le jeu de données urbain exigeant Touchdown, surpassant la méthode de référence de 6,89 % (amélioration absolue) en termes de succès pondéré par la distance d'édition (SED).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprendre à s’arrêter : une approche simple mais efficace pour la navigation vision-langage en milieu urbain | Articles | HyperAI