il y a 2 mois

Mini-Gemini : Exploration du Potentiel des Modèles Multimodaux de Vision et de Langage

Li, Yanwei ; Zhang, Yuechen ; Wang, Chengyao ; Zhong, Zhisheng ; Chen, Yixin ; Chu, Ruihang ; Liu, Shaoteng ; Jia, Jiaya

Voir les détails de l'article

Mini-Gemini : Exploration du Potentiel des Modèles Multimodaux de Vision et de Langage

Résumé

Dans cette étude, nous présentons Mini-Gemini, un cadre simple et efficace visant à améliorer les modèles de vision-langage multimodaux (VLMs). Bien que les progrès réalisés dans les VLMs aient facilité les dialogues visuels de base et le raisonnement, un écart de performance persiste par rapport aux modèles avancés tels que GPT-4 et Gemini. Nous tentons de réduire cet écart en exploitant le potentiel des VLMs pour une meilleure performance et un flux de travail de type n'importe quel à n'importe quel (any-to-any) sous trois angles : les jetons visuels haute résolution, les données de haute qualité et la génération guidée par les VLMs. Pour améliorer les jetons visuels, nous proposons d'utiliser un encodeur visuel supplémentaire pour affiner la résolution élevée sans augmenter le nombre de jetons visuels. Nous construisons également un jeu de données de haute qualité qui favorise une compréhension précise des images et une génération basée sur le raisonnement, élargissant ainsi la portée opérationnelle des VLMs actuels. En général, Mini-Gemini exploite davantage le potentiel des VLMs et renforce les cadres actuels avec la compréhension, le raisonnement et la génération d'images simultanément. Mini-Gemini prend en charge une série de grands modèles linguistiques (LLMs) denses et basés sur l'expertise (MoE) allant de 2 milliards à 34 milliards de paramètres. Il est démontré qu'il atteint des performances leaders dans plusieurs benchmarks à zéro coup d'œil et dépasse même certains modèles privés développés. Le code source et les modèles sont disponibles sur https://github.com/dvlab-research/MiniGemini.