HyperAIHyperAI

Command Palette

Search for a command to run...

Vers l'apprentissage d'un modèle généraliste pour la navigation incarnée

Duo Zheng Shijia Huang Lin Zhao Yiwu Zhong Liwei Wang

Résumé

La construction d'un agent généraliste capable d'interagir avec le monde est une cible fascinante des systèmes d'IA, stimulant ainsi la recherche sur la navigation incarnée, où un agent est requis pour naviguer selon des instructions ou répondre à des requêtes. Malgré les progrès majeurs réalisés, les travaux précédents se concentrent principalement sur des agents spécifiques à une tâche et manquent de généralisabilité face à des scénarios inédits. Récemment, les grands modèles linguistiques (LLMs) ont montré des capacités remarquables dans divers domaines, offrant une opportunité prometteuse pour la navigation incarnée. À cet égard, nous proposons le premier modèle généraliste pour la navigation incarnée, NaviLLM. Ce modèle adapte les LLMs à la navigation incarnée en introduisant des instructions basées sur des schémas. Les instructions basées sur des schémas transforment de manière flexible diverses tâches en problèmes de génération, unifiant ainsi un large éventail de tâches. Cette approche nous permet d'intégrer diverses sources de données provenant de différents jeux de données dans l'entraînement, dotant NaviLLM d'une gamme étendue de capacités nécessaires à la navigation incarnée. Nous menons des expériences approfondies pour évaluer les performances et la généralisabilité de notre modèle. Les résultats expérimentaux montrent que notre modèle unifié atteint des performances de pointe sur CVDN, SOON et ScanQA. Plus précisément, il dépasse la méthode précédente de pointe avec une marge significative de 29 % en progression vers l'objectif sur CVDN. De plus, notre modèle démontre également une forte généralisabilité et présente des résultats impressionnants sur des tâches inédites, telles que la réponse aux questions incarnées et le légendage 3D.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp