HyperAIHyperAI

Command Palette

Search for a command to run...

Abeille : Projecteur amélioré par la localité pour les LLM multimodaux

Junbum Cha; Wooyoung Kang; Jonghwan Mun; Byungseok Roh

Résumé

Dans les Modèles de Langue Multimodaux à Grande Échelle (MLLMs), un projecteur visuel joue un rôle crucial en reliant les encodeurs visuels pré-entraînés aux MLLMs, permettant une compréhension visuelle profonde tout en exploitant les capacités robustes des MLLMs. Malgré l'importance du projecteur visuel, il a été relativement moins étudié. Dans cette étude, nous identifions d'abord deux propriétés essentielles du projecteur : (i) la flexibilité dans la gestion du nombre de jetons visuels, cruciale pour l'efficacité globale des MLLMs, et (ii) la préservation du contexte local à partir des caractéristiques visuelles, indispensable pour la compréhension spatiale. Sur la base de ces constatations, nous proposons un nouveau design de projecteur qui est à la fois flexible et amélioré en termes de localité, satisfaisant efficacement les deux propriétés souhaitées. De plus, nous présentons des stratégies exhaustives pour utiliser efficacement plusieurs jeux de données d'instructions multidimensionnels. À travers des expériences approfondies, nous examinons l'impact des choix de conception individuels. Enfin, notre MLLM proposé, Honeybee, surpasse remarquablement les méthodes précédentes de pointe sur divers benchmarks, notamment MME, MMBench, SEED-Bench et LLaVA-Bench, atteignant une efficacité significativement supérieure. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/kakaobrain/honeybee.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Abeille : Projecteur amélioré par la localité pour les LLM multimodaux | Articles | HyperAI