il y a 2 mois

FLAME : Apprendre à naviguer avec des LLM multimodaux dans les environnements urbains

Yunzhe Xu; Yiyuan Pan; Zhe Liu; Hesheng Wang

Résumé

Les grands modèles de langage (LLMs) ont démontré leur potentiel dans les tâches de navigation visuelle et linguistique (VLN), mais les applications actuelles rencontrent encore des défis. Bien que les LLMs soient excellents dans des scénarios de conversation générale, ils peinent à réaliser des tâches de navigation spécialisées, affichant une performance inférieure à celle des modèles VLN spécialisés. Nous présentons FLAME (FLAMingo-Architected Embodied Agent), un nouvel agent et architecture basés sur un grand modèle de langage multimodal conçus pour les tâches VLN urbaines et capables de gérer efficacement plusieurs observations. Notre approche met en œuvre une technique d'ajustement en trois phases pour une adaptation efficace aux tâches de navigation, incluant l'ajustement monocéptique pour la description des vues de rue, l'ajustement multicéptique pour le résumé des itinéraires, et une formation bout-à-bout sur des ensembles de données VLN. Les ensembles de données augmentés sont synthétisés automatiquement. Les résultats expérimentaux montrent la supériorité de FLAME par rapport aux méthodes existantes, surpassant les méthodes d'avant-garde avec une augmentation de 7,3 % du taux d'achèvement des tâches sur l'ensemble de données Touchdown. Ce travail met en lumière le potentiel des grands modèles de langage multimodaux (MLLMs) dans les tâches de navigation complexes, représentant une avancée vers l'application des MLLMs dans le domaine de l'intelligence incarnée.