Mini-Gemini: Die Potenzialausbeutung von multimodalen Seh- und Sprachmodellen

In dieser Arbeit stellen wir Mini-Gemini vor, ein einfaches und effektives Framework zur Verbesserung von multimodalen Vision-Language-Modellen (VLMs). Trotz der Fortschritte bei VLMs, die grundlegende visuelle Dialoge und Schlussfolgerungen ermöglichen, besteht weiterhin eine Leistungsunterschied zu fortschrittlichen Modellen wie GPT-4 und Gemini. Wir versuchen, diesen Unterschied zu verringern, indem wir das Potenzial von VLMs in drei Aspekten ausloten: hoiauflösende visuelle Token, hochwertige Daten und VLM-gesteuerte Generierung. Um die visuellen Token zu verbessern, schlagen wir vor, einen zusätzlichen visuellen Encoder für die Hochauflösungsverfeinerung ohne Erhöhung der Anzahl der visuellen Token zu nutzen. Des Weiteren erstellen wir einen hochwertigen Datensatz, der präzise Bildverarbeitung und schlussfolgerungsbasierte Generierung fördert und den Einsatzbereich aktueller VLMs erweitert. Im Allgemeinen nutzt Mini-Gemini das Potenzial von VLMs weiter aus und verleiht aktuellen Frameworks gleichzeitig die Fähigkeiten der Bildverarbeitung, Schlussfolgerung und Generierung. Mini-Gemini unterstützt eine Reihe dichter und MoE-gestützer großer Sprachmodelle (LLMs) mit Größen zwischen 2B und 34B. Es wurde gezeigt, dass es in mehreren zero-shot-Benchmarks führende Leistungen erzielt und sogar entwickelte private Modelle übertrifft. Der Code und die Modelle sind unter https://github.com/dvlab-research/MiniGemini verfügbar.