HyperAIHyperAI

Command Palette

Search for a command to run...

Rewind Tactique : Autocorrection par le Retraçage dans la Navigation Vision-Langue

Liyiming Ke1∗ Xiujun Li1,2 Yonatan Bisk1 Ari Holtzman1 Zhe Gan2 Jingjing Liu2 Jianfeng Gao2 Yejin Choi1,3 Siddhartha Srinivasa1

Résumé

Nous présentons le Navigateur FAST (Frontier Aware Search with backTracking), un cadre général pour la décodification d'actions, qui obtient des résultats de pointe sur le défi de navigation Vision-et-Langue Room-to-Room (R2R) d'Anderson et al. (2018). Étant donné une instruction en langage naturel et des vues d'images photoréalistes d'un environnement inconnu, l'agent était chargé de naviguer du lieu de départ au lieu d'arrivée aussi rapidement que possible. Tandis que toutes les approches actuelles prennent des décisions d'action locales ou évaluent l'intégralité des trajectoires à l'aide de la recherche en faisceau (beam search), notre méthode équilibre les signaux locaux et globaux lors de l'exploration d'un environnement non observé. Importamment, cela nous permet d'agir de manière avide mais d'utiliser des signaux globaux pour effectuer un retour arrière lorsque c'est nécessaire. L'application du cadre FAST aux modèles existants de pointe a permis d'obtenir une amélioration relative de 17 % et une amélioration absolue de 6 % sur le taux de réussite pondéré par la longueur du chemin (Success rate weighted by Path Length, SPL).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp