Amélioration des baselines grâce à l'ajustement visuel des instructions

Les grands modèles multimodaux (LMM) ont récemment montré des progrès encourageants grâce à l'ajustement d'instructions visuelles. Dans cette note, nous démontrons que le connecteur intermodale vision-langage entièrement connecté dans LLaVA est surprenant par sa puissance et son efficacité en termes de données. En apportant des modifications simples à LLaVA, notamment en utilisant CLIP-ViT-L-336px avec une projection MLP et en ajoutant des données VQA orientées vers les tâches académiques avec des invites de formatage de réponse simples, nous établissons des lignes de base plus solides qui atteignent l'état de l'art sur 11 benchmarks. Notre point de contrôle final de 13 milliards de paramètres utilise seulement 1,2 million de données publiquement disponibles et termine l'entraînement complet en environ 1 jour sur un seul nœud doté de 8 cartes A100. Nous espérons que cela rendra la recherche d'avant-garde sur les LMM plus accessible. Le code et le modèle seront mis à disposition du public.Note: - "CLIP-ViT-L-336px" est conservé tel quel car il s'agit d'un nom spécifique d'un modèle.- "MLP projection" est traduit par "projection MLP" car c'est la terminologie couramment utilisée en français.- "VQA" (Visual Question Answering) est également conservé tel quel, suivi d'une explication entre parenthèses pour clarifier son sens.- "benchmarks" est traduit par "benchmarks" car c'est un terme couramment utilisé dans le domaine scientifique et technologique en français.