HyperAIHyperAI

Command Palette

Search for a command to run...

Mini-Gemini : Exploration du Potentiel des Modèles Multimodaux de Vision et de Langage

Yanwei Li Yuechen Zhang Chengyao Wang Zhisheng Zhong Yixin Chen Ruihang Chu Shaoteng Liu Jiaya Jia

Résumé

Dans cette étude, nous présentons Mini-Gemini, un cadre simple et efficace visant à améliorer les modèles de vision-langage multimodaux (VLMs). Bien que les progrès réalisés dans les VLMs aient facilité les dialogues visuels de base et le raisonnement, un écart de performance persiste par rapport aux modèles avancés tels que GPT-4 et Gemini. Nous tentons de réduire cet écart en exploitant le potentiel des VLMs pour une meilleure performance et un flux de travail de type n'importe quel à n'importe quel (any-to-any) sous trois angles : les jetons visuels haute résolution, les données de haute qualité et la génération guidée par les VLMs. Pour améliorer les jetons visuels, nous proposons d'utiliser un encodeur visuel supplémentaire pour affiner la résolution élevée sans augmenter le nombre de jetons visuels. Nous construisons également un jeu de données de haute qualité qui favorise une compréhension précise des images et une génération basée sur le raisonnement, élargissant ainsi la portée opérationnelle des VLMs actuels. En général, Mini-Gemini exploite davantage le potentiel des VLMs et renforce les cadres actuels avec la compréhension, le raisonnement et la génération d'images simultanément. Mini-Gemini prend en charge une série de grands modèles linguistiques (LLMs) denses et basés sur l'expertise (MoE) allant de 2 milliards à 34 milliards de paramètres. Il est démontré qu'il atteint des performances leaders dans plusieurs benchmarks à zéro coup d'œil et dépasse même certains modèles privés développés. Le code source et les modèles sont disponibles sur https://github.com/dvlab-research/MiniGemini.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Mini-Gemini : Exploration du Potentiel des Modèles Multimodaux de Vision et de Langage | Articles | HyperAI