HyperAIHyperAI

Command Palette

Search for a command to run...

FLAME : Apprendre à naviguer avec des LLM multimodaux dans les environnements urbains

Yunzhe Xu Yiyuan Pan Zhe Liu Hesheng Wang

Résumé

Les grands modèles de langage (LLMs) ont démontré leur potentiel dans les tâches de navigation visuelle et linguistique (VLN), mais les applications actuelles rencontrent encore des défis. Bien que les LLMs soient excellents dans des scénarios de conversation générale, ils peinent à réaliser des tâches de navigation spécialisées, affichant une performance inférieure à celle des modèles VLN spécialisés. Nous présentons FLAME (FLAMingo-Architected Embodied Agent), un nouvel agent et architecture basés sur un grand modèle de langage multimodal conçus pour les tâches VLN urbaines et capables de gérer efficacement plusieurs observations. Notre approche met en œuvre une technique d'ajustement en trois phases pour une adaptation efficace aux tâches de navigation, incluant l'ajustement monocéptique pour la description des vues de rue, l'ajustement multicéptique pour le résumé des itinéraires, et une formation bout-à-bout sur des ensembles de données VLN. Les ensembles de données augmentés sont synthétisés automatiquement. Les résultats expérimentaux montrent la supériorité de FLAME par rapport aux méthodes existantes, surpassant les méthodes d'avant-garde avec une augmentation de 7,3 % du taux d'achèvement des tâches sur l'ensemble de données Touchdown. Ce travail met en lumière le potentiel des grands modèles de langage multimodaux (MLLMs) dans les tâches de navigation complexes, représentant une avancée vers l'application des MLLMs dans le domaine de l'intelligence incarnée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FLAME : Apprendre à naviguer avec des LLM multimodaux dans les environnements urbains | Articles | HyperAI