Qwen2-VL: Verbesserung der Wahrnehmung von Bild-Sprach-Modellen in jeder Auflösung

Wir präsentieren die Qwen2-VL-Reihe, eine fortschrittliche Weiterentwicklung der bisherigen Qwen-VL-Modelle, die den konventionellen Ansatz der vorbestimmten Auflösung in der visuellen Verarbeitung neu definiert. Qwen2-VL führt das Naive Dynamic Resolution-Verfahren ein, das es dem Modell ermöglicht, Bilder unterschiedlicher Auflösungen dynamisch in verschiedene Anzahlen von visuellen Token zu verarbeiten. Dieser Ansatz ermöglicht es dem Modell, effizientere und genaue visuelle Darstellungen zu generieren, die eng mit menschlichen Wahrnehmungsprozessen übereinstimmen. Das Modell integriert zudem Multimodale Rotationspositionierungsembeddings (M-RoPE), was die effektive Fusion von Positionsinformationen über Text, Bilder und Videos erleichtert. Wir verwenden ein einheitliches Paradigma für die Verarbeitung von Bildern und Videos, um die visuellen Wahrnehmungsfähigkeiten des Modells zu verbessern. Um das Potenzial großer multimodaler Modelle zu erforschen, untersucht Qwen2-VL Skalierungsgesetze für große Vision-Sprach-Modelle (LVLMs). Durch die Skalierung sowohl der Modellgröße – mit Versionen bei 2 Mrd., 8 Mrd. und 72 Mrd. Parametern – als auch der Menge an Trainingsdaten erreicht die Qwen2-VL-Reihe hochwettbewerbsfähige Leistungen. Bemerkenswerterweise erzielt das Qwen2-VL-72B-Modell auf verschiedenen multimodalen Benchmarks Ergebnisse, die denen führender Modelle wie GPT-4o und Claude3.5-Sonnet vergleichbar sind und andere allgemeine Modelle übertrifft. Der Quellcode ist unter https://github.com/QwenLM/Qwen2-VL verfügbar.