HyperAIHyperAI

Command Palette

Search for a command to run...

Une Nouvelle Voie : L’Échelonnage de la Navigation Vision-Texte grâce à des Instructions Synthétiques et l’Apprentissage par Imitation

Aishwarya Kamath Peter Anderson Su Wang Jing Yu Koh Alexander Ku Austin Waters Yinfei Yang Jason Baldridge Zarana Parekh

Résumé

Des études récentes en navigation vision-langage (VLN) entraînent des agents apprentissage par renforcement (RL) à exécuter des instructions de navigation en langage naturel dans des environnements photoréalistes, en vue de développer des robots capables de suivre des instructions humaines. Toutefois, en raison de la rareté des données d'instructions humaines et de la faible diversité des environnements d'entraînement, ces agents peinent encore à maîtriser le repérage sémantique complexe du langage et la compréhension spatiale du langage. L'entraînement préalable sur de grandes bases de données textuelles et d'images-textes issues du web a été largement exploré, mais les améliorations obtenues restent limitées. Nous explorons une augmentation à grande échelle basée sur des instructions synthétiques. Nous utilisons plus de 500 environnements intérieurs capturés sous forme de panoramas à 360 degrés échantillonnés de manière dense, construisons des trajectoires de navigation à travers ces panoramas, puis générons une instruction visuellement ancrée pour chaque trajectoire à l’aide de Marky, un générateur multilingue de haute qualité d’instructions de navigation. Nous synthétisons également des observations d’image depuis de nouveaux points de vue à l’aide d’un GAN image-to-image. Le jeu de données résultant, composé de 4,2 millions de paires instruction-trajectoire, est deux ordres de grandeur plus volumineux que les jeux de données humainement annotés existants, et inclut une plus grande diversité d’environnements et de points de vue. Pour exploiter efficacement ces données à grande échelle, nous entraînons un agent simple basé sur un transformateur par apprentissage par imitation. Sur le jeu de données exigeant RxR, notre approche surpassent tous les agents RL existants, améliorant le score NDTW de l’état de l’art de 71,1 à 79,1 dans les environnements vus, et de 64,6 à 66,8 dans les environnements non vus lors des tests. Ce travail ouvre une nouvelle voie pour améliorer les agents capables de suivre des instructions, en mettant l’accent sur l’apprentissage par imitation à grande échelle et le développement de capacités de génération d’instructions synthétiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp