VILA : Sur l'entraînement préalable des modèles linguistiques visuels

Les modèles linguistiques visuels (VLM) ont connu un progrès rapide grâce au succès récent des grands modèles linguistiques (LLM). Des efforts croissants sont déployés dans le domaine du réglage d'instructions visuelles afin d'étendre les LLM à des entrées visuelles, mais il manque une étude approfondie du processus de pré-entraînement linguistique visuel, durant lequel le modèle apprend à réaliser une modélisation conjointe des deux modalités. Dans ce travail, nous examinons les choix architecturaux pour le pré-entraînement des VLM en enrichissant les LLM par des comparaisons contrôlées étape par étape. Nous présentons trois résultats principaux : (1) figer les LLM pendant le pré-entraînement permet d'obtenir des performances zéro-shot satisfaisantes, mais limite la capacité d'apprentissage contextuel, qui nécessite au contraire le dégel des LLM ; (2) un jeu de données de pré-entraînement entrelacé est avantageux, tandis que les paires image-texte seules ne sont pas optimales ; (3) le ré-ajustement du jeu de données d'instructions uniquement textuelles en jeu de données image-texte pendant le fin-tuning d'instructions non seulement compense la dégradation des tâches uniquement textuelles, mais améliore également la précision des tâches VLM. Grâce à une recette de pré-entraînement améliorée, nous avons conçu VILA, une famille de modèles linguistiques visuels qui surpassent de manière cohérente les modèles de pointe, tels que LLaVA-1.5, sur les principales benchmarks, sans recourir à des améliorations supplémentaires. Le pré-entraînement multimodal a également permis de mettre en évidence des propriétés prometteuses de VILA, notamment la capacité de raisonnement sur plusieurs images, un apprentissage contextuel renforcé et une meilleure connaissance du monde.