Vers l'apprentissage d'un modèle généraliste pour la navigation incarnée

La construction d'un agent généraliste capable d'interagir avec le monde est une cible fascinante des systèmes d'IA, stimulant ainsi la recherche sur la navigation incarnée, où un agent est requis pour naviguer selon des instructions ou répondre à des requêtes. Malgré les progrès majeurs réalisés, les travaux précédents se concentrent principalement sur des agents spécifiques à une tâche et manquent de généralisabilité face à des scénarios inédits. Récemment, les grands modèles linguistiques (LLMs) ont montré des capacités remarquables dans divers domaines, offrant une opportunité prometteuse pour la navigation incarnée. À cet égard, nous proposons le premier modèle généraliste pour la navigation incarnée, NaviLLM. Ce modèle adapte les LLMs à la navigation incarnée en introduisant des instructions basées sur des schémas. Les instructions basées sur des schémas transforment de manière flexible diverses tâches en problèmes de génération, unifiant ainsi un large éventail de tâches. Cette approche nous permet d'intégrer diverses sources de données provenant de différents jeux de données dans l'entraînement, dotant NaviLLM d'une gamme étendue de capacités nécessaires à la navigation incarnée. Nous menons des expériences approfondies pour évaluer les performances et la généralisabilité de notre modèle. Les résultats expérimentaux montrent que notre modèle unifié atteint des performances de pointe sur CVDN, SOON et ScanQA. Plus précisément, il dépasse la méthode précédente de pointe avec une marge significative de 29 % en progression vers l'objectif sur CVDN. De plus, notre modèle démontre également une forte généralisabilité et présente des résultats impressionnants sur des tâches inédites, telles que la réponse aux questions incarnées et le légendage 3D.