Abeille : Projecteur amélioré par la localité pour les LLM multimodaux

Dans les Modèles de Langue Multimodaux à Grande Échelle (MLLMs), un projecteur visuel joue un rôle crucial en reliant les encodeurs visuels pré-entraînés aux MLLMs, permettant une compréhension visuelle profonde tout en exploitant les capacités robustes des MLLMs. Malgré l'importance du projecteur visuel, il a été relativement moins étudié. Dans cette étude, nous identifions d'abord deux propriétés essentielles du projecteur : (i) la flexibilité dans la gestion du nombre de jetons visuels, cruciale pour l'efficacité globale des MLLMs, et (ii) la préservation du contexte local à partir des caractéristiques visuelles, indispensable pour la compréhension spatiale. Sur la base de ces constatations, nous proposons un nouveau design de projecteur qui est à la fois flexible et amélioré en termes de localité, satisfaisant efficacement les deux propriétés souhaitées. De plus, nous présentons des stratégies exhaustives pour utiliser efficacement plusieurs jeux de données d'instructions multidimensionnels. À travers des expériences approfondies, nous examinons l'impact des choix de conception individuels. Enfin, notre MLLM proposé, Honeybee, surpasse remarquablement les méthodes précédentes de pointe sur divers benchmarks, notamment MME, MMBench, SEED-Bench et LLaVA-Bench, atteignant une efficacité significativement supérieure. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/kakaobrain/honeybee.