HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen2-VL: Verbesserung der Wahrnehmung von Bild-Sprach-Modellen in jeder Auflösung

Zusammenfassung

Wir präsentieren die Qwen2-VL-Reihe, eine fortschrittliche Weiterentwicklung der bisherigen Qwen-VL-Modelle, die den konventionellen Ansatz der vorbestimmten Auflösung in der visuellen Verarbeitung neu definiert. Qwen2-VL führt das Naive Dynamic Resolution-Verfahren ein, das es dem Modell ermöglicht, Bilder unterschiedlicher Auflösungen dynamisch in verschiedene Anzahlen von visuellen Token zu verarbeiten. Dieser Ansatz ermöglicht es dem Modell, effizientere und genaue visuelle Darstellungen zu generieren, die eng mit menschlichen Wahrnehmungsprozessen übereinstimmen. Das Modell integriert zudem Multimodale Rotationspositionierungsembeddings (M-RoPE), was die effektive Fusion von Positionsinformationen über Text, Bilder und Videos erleichtert. Wir verwenden ein einheitliches Paradigma für die Verarbeitung von Bildern und Videos, um die visuellen Wahrnehmungsfähigkeiten des Modells zu verbessern. Um das Potenzial großer multimodaler Modelle zu erforschen, untersucht Qwen2-VL Skalierungsgesetze für große Vision-Sprach-Modelle (LVLMs). Durch die Skalierung sowohl der Modellgröße – mit Versionen bei 2 Mrd., 8 Mrd. und 72 Mrd. Parametern – als auch der Menge an Trainingsdaten erreicht die Qwen2-VL-Reihe hochwettbewerbsfähige Leistungen. Bemerkenswerterweise erzielt das Qwen2-VL-72B-Modell auf verschiedenen multimodalen Benchmarks Ergebnisse, die denen führender Modelle wie GPT-4o und Claude3.5-Sonnet vergleichbar sind und andere allgemeine Modelle übertrifft. Der Quellcode ist unter https://github.com/QwenLM/Qwen2-VL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Qwen2-VL: Verbesserung der Wahrnehmung von Bild-Sprach-Modellen in jeder Auflösung | Paper | HyperAI