Command Palette
Search for a command to run...
Rewind Tactique : Autocorrection par le Retraçage dans la Navigation Vision-Langue
Rewind Tactique : Autocorrection par le Retraçage dans la Navigation Vision-Langue
Liyiming Ke1∗ Xiujun Li1,2 Yonatan Bisk1 Ari Holtzman1 Zhe Gan2 Jingjing Liu2 Jianfeng Gao2 Yejin Choi1,3 Siddhartha Srinivasa1
Résumé
Nous présentons le Navigateur FAST (Frontier Aware Search with backTracking), un cadre général pour la décodification d'actions, qui obtient des résultats de pointe sur le défi de navigation Vision-et-Langue Room-to-Room (R2R) d'Anderson et al. (2018). Étant donné une instruction en langage naturel et des vues d'images photoréalistes d'un environnement inconnu, l'agent était chargé de naviguer du lieu de départ au lieu d'arrivée aussi rapidement que possible. Tandis que toutes les approches actuelles prennent des décisions d'action locales ou évaluent l'intégralité des trajectoires à l'aide de la recherche en faisceau (beam search), notre méthode équilibre les signaux locaux et globaux lors de l'exploration d'un environnement non observé. Importamment, cela nous permet d'agir de manière avide mais d'utiliser des signaux globaux pour effectuer un retour arrière lorsque c'est nécessaire. L'application du cadre FAST aux modèles existants de pointe a permis d'obtenir une amélioration relative de 17 % et une amélioration absolue de 6 % sur le taux de réussite pondéré par la longueur du chemin (Success rate weighted by Path Length, SPL).