HyperAIHyperAI
il y a 2 mois

Atterrissage : Navigation en Langue Naturelle et Raisonnement Spatial dans les Environnements Visuels de Rue

Howard Chen; Alane Suhr; Dipendra Misra; Noah Snavely; Yoav Artzi
Atterrissage : Navigation en Langue Naturelle et Raisonnement Spatial dans les Environnements Visuels de Rue
Résumé

Nous étudions le problème de la raisonnement conjoint sur le langage et la vision à travers une tâche de navigation et de raisonnement spatial. Nous introduisons la tâche et le jeu de données Touchdown, où un agent doit d'abord suivre des instructions de navigation dans un environnement urbain visuel réel, puis identifier un emplacement décrit en langage naturel pour trouver un objet caché à la position cible. Le jeu de données contient 9 326 exemples d'instructions en anglais et de descriptions spatiales appariés avec des démonstrations. L'analyse empirique montre que les données constituent un défi ouvert aux méthodes existantes, tandis que l'analyse linguistique qualitative révèle que les données présentent une utilisation plus riche du raisonnement spatial par rapport aux ressources connexes.

Atterrissage : Navigation en Langue Naturelle et Raisonnement Spatial dans les Environnements Visuels de Rue | Articles de recherche récents | HyperAI