HyperAIHyperAI

Command Palette

Search for a command to run...

Vers l'apprentissage d'un Agent Générique pour la Navigation Vision-Langage par Pré-entraînement

Weituo Hao Chunyuan Li Xiujun Li Lawrence Carin Jianfeng Gao

Résumé

Apprendre à naviguer dans un environnement visuel à l’aide d’instructions en langage naturel constitue une tâche difficile, en raison de la grande variabilité des entrées multimodales pour l’agent, ainsi que du manque souvent de données d’entraînement disponibles pour de nouvelles tâches. Dans cet article, nous proposons le premier paradigme de pré-entraînement et de fine-tuning pour les tâches de navigation vision-langage (VLN). En s’entraînant de manière auto-supervisée sur un grand volume de triplets image-texte-action, le modèle pré-entraîné acquiert des représentations génériques des environnements visuels et des instructions linguistiques. Ce modèle peut être facilement intégré comme composant direct dans les architectures existantes de navigation vision-langage, donnant lieu à l’agent proposé appelé Prevalent. Celui-ci apprend de manière plus efficace sur de nouvelles tâches et généralise mieux dans des environnements auparavant inconnus. Les performances sont validées sur trois tâches VLN. Sur le benchmark Room-to-Room, notre modèle améliore l’état de l’art, passant de 47 % à 51 % en taux de réussite pondéré par la longueur du trajet. En outre, les représentations apprises sont transférables à d’autres tâches VLN. Sur deux tâches récentes, la navigation vision-dialogue et « Help, Anna! », l’approche proposée Prevalent permet d’obtenir des améliorations significatives par rapport aux méthodes existantes, atteignant un nouveau record d’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp