HyperAIHyperAI

Command Palette

Search for a command to run...

TinyLLaVA : Un cadre pour des modèles multimodaux grands mais à petite échelle

Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang

Résumé

Nous présentons le cadre TinyLLaVA, qui offre une perspective unifiée pour la conception et l'analyse des petits modèles multimodaux à grande échelle (LMMs). Nous étudions empiriquement l'impact de différents encodeurs visuels, de modules de connexion, de modèles linguistiques, de jeux de données d'entraînement ainsi que de recettes d'entraînement. Nos expériences approfondies montrent qu'une meilleure qualité des données combinée à des recettes d'entraînement optimisées permet aux petits LMMs d'atteindre de manière cohérente des performances comparables à celles des LMMs plus volumineux. Dans le cadre de notre approche, nous entraînons une famille de petits LMMs. Notre meilleur modèle, TinyLLaVA-3.1B, obtient des performances globales supérieures à celles des modèles existants de 7B, tels que LLaVA-1.5 et Qwen-VL. Nous espérons que nos résultats pourront servir de références pour les recherches futures en matière d'échelle des données, de configurations d'entraînement et de choix de modèles. Les poids de notre modèle et le code source seront rendus publics.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp