Apprentissage Multimodal Efficace sous une Perspective centrée sur les Données

Les modèles de langage multimodaux à grande échelle (MLLMs) ont démontré des capacités notables dans les tâches de compréhension visuelle générale et de raisonnement. Cependant, leur déploiement est entravé par des coûts informatiques substantiels, tant lors de l'entraînement que de l'inférence, limitant ainsi l'accès aux communautés de recherche et d'utilisateurs plus larges. Une solution simple consiste à utiliser des modèles pré-entraînés plus petits pour la vision et le langage, ce qui entraîne inévitablement une baisse significative des performances. Dans cet article, nous démontrons la possibilité d'entraîner un MLLM plus petit mais meilleur grâce à des données d'entraînement de haute qualité. Plus précisément, nous présentons Bunny, une famille de MLLMs légers dotés de troncs communs flexibles pour la vision et le langage, permettant un apprentissage multimodal efficace à partir de données d'entraînement sélectionnées. Les expériences montrent que notre Bunny-4B/8B surpasse les MLLMs à grande échelle les plus avancés sur plusieurs benchmarks. Nous espérons que ce travail fournira à la communauté un outil open-source propre et flexible pour poursuivre la recherche et le développement. Le code, les modèles et les données sont disponibles sur https://github.com/BAAI-DCAI/Bunny.