HyperAIHyperAI

Command Palette

Search for a command to run...

Navigation Vision-Langue : Interprétation d'instructions de navigation visuellement ancrées dans des environnements réels

Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton van den Hengel

Résumé

Un robot capable d'exécuter une instruction en langage naturel a toujours été un rêve, même avant que la série animée Les Jetsons ne imagine une vie de loisirs facilitée par une flotte de robots attentifs. Ce rêve reste obstinément éloigné. Cependant, les récentes avancées dans les méthodes de vision et de langage ont réalisé des progrès incroyables dans des domaines étroitement liés. Cette évolution est significative car un robot interprétant une instruction de navigation en langage naturel sur la base de ce qu'il voit effectue un processus de vision et de langage similaire à celui du Visual Question Answering (VQA). Les deux tâches peuvent être interprétées comme des problèmes de traduction séquentielle ancrés visuellement, et nombre des mêmes méthodes s'appliquent. Pour permettre et encourager l'application des méthodes de vision et de langage au problème d'interprétation des instructions de navigation ancrées visuellement, nous présentons le Matterport3D Simulator -- un environnement d'apprentissage par renforcement à grande échelle basé sur des images réelles. En utilisant ce simulateur, qui pourra à l'avenir soutenir une variété de tâches incarnées de vision et de langage, nous fournissons le premier ensemble de données de référence pour la navigation en langage naturel ancrée visuellement dans des bâtiments réels -- l'ensemble de données Room-to-Room (R2R).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp