HyperAIHyperAI
il y a 2 mois

Navigation guidée par la vision et le dialogue

Jesse Thomason; Michael Murray; Maya Cakmak; Luke Zettlemoyer
Navigation guidée par la vision et le dialogue
Résumé

Les robots naviguant dans des environnements humains devraient utiliser le langage pour demander de l'aide et être capables de comprendre les réponses des humains. Pour étudier ce défi, nous présentons la Navigation Coopérative par Vision et Dialogue, une base de données comprenant plus de 2 000 dialogues incarnés entre humains situés dans des environnements domestiques simulés et photoréalistes. Le Navigateur pose des questions à son partenaire, l'Oracle, qui dispose d'un accès privilégié aux meilleures étapes suivantes que le Navigateur devrait entreprendre selon un planificateur de plus court chemin. Pour former des agents capables de rechercher un emplacement cible dans un environnement, nous définissons la tâche de Navigation à partir de l'Histoire du Dialogue. Un agent, donné un objet cible et une histoire de dialogue entre des humains coopérant pour trouver cet objet, doit inférer les actions de navigation vers le but dans des environnements inexplorés. Nous établissons un modèle initial multimodal séquence-à-séquence et démontrons que le fait de regarder plus loin dans l'historique du dialogue améliore les performances. Le code source et une démonstration en direct peuvent être consultés à l'adresse https://cvdn.dev/

Navigation guidée par la vision et le dialogue | Articles de recherche récents | HyperAI