Command Palette
Search for a command to run...
TinyLLaVA : Un cadre pour des modèles multimodaux grands mais à petite échelle
TinyLLaVA : Un cadre pour des modèles multimodaux grands mais à petite échelle
Baichuan Zhou Ying Hu Xi Weng Junlong Jia Jie Luo Xien Liu Ji Wu Lei Huang
Résumé
Nous présentons le cadre TinyLLaVA, qui offre une perspective unifiée pour la conception et l'analyse des petits modèles multimodaux à grande échelle (LMMs). Nous étudions empiriquement l'impact de différents encodeurs visuels, de modules de connexion, de modèles linguistiques, de jeux de données d'entraînement ainsi que de recettes d'entraînement. Nos expériences approfondies montrent qu'une meilleure qualité des données combinée à des recettes d'entraînement optimisées permet aux petits LMMs d'atteindre de manière cohérente des performances comparables à celles des LMMs plus volumineux. Dans le cadre de notre approche, nous entraînons une famille de petits LMMs. Notre meilleur modèle, TinyLLaVA-3.1B, obtient des performances globales supérieures à celles des modèles existants de 7B, tels que LLaVA-1.5 et Qwen-VL. Nous espérons que nos résultats pourront servir de références pour les recherches futures en matière d'échelle des données, de configurations d'entraînement et de choix de modèles. Les poids de notre modèle et le code source seront rendus publics.