Rewind Tactique : Autocorrection par le Retraçage dans la Navigation Vision-Langue

Nous présentons le Navigateur FAST (Frontier Aware Search with backTracking), un cadre général pour la décodification d'actions, qui obtient des résultats de pointe sur le défi de navigation Vision-et-Langue Room-to-Room (R2R) d'Anderson et al. (2018). Étant donné une instruction en langage naturel et des vues d'images photoréalistes d'un environnement inconnu, l'agent était chargé de naviguer du lieu de départ au lieu d'arrivée aussi rapidement que possible. Tandis que toutes les approches actuelles prennent des décisions d'action locales ou évaluent l'intégralité des trajectoires à l'aide de la recherche en faisceau (beam search), notre méthode équilibre les signaux locaux et globaux lors de l'exploration d'un environnement non observé. Importamment, cela nous permet d'agir de manière avide mais d'utiliser des signaux globaux pour effectuer un retour arrière lorsque c'est nécessaire. L'application du cadre FAST aux modèles existants de pointe a permis d'obtenir une amélioration relative de 17 % et une amélioration absolue de 6 % sur le taux de réussite pondéré par la longueur du chemin (Success rate weighted by Path Length, SPL).