HyperAIHyperAI

Command Palette

Search for a command to run...

Wie weit sind wir von GPT-4V entfernt? Schließen der Abstand zu kommerziellen multimodalen Modellen mit Open-Source-Suiten

Zusammenfassung

In diesem Bericht stellen wir InternVL 1.5 vor, ein quelloffenes Multimodal-Größensprachmodell (MLLM), das die Leistungslücke zwischen quelloffenen und proprietären kommerziellen Modellen im Bereich der multimodalen Verständnisfähigkeit schließen soll. Wir präsentieren drei einfache Verbesserungen: (1) Starke Visuelle Encoder: Wir haben eine kontinuierliche Lernstrategie für das großskalige visuelle Grundmodell InternViT-6B untersucht, die die Fähigkeiten im visuellen Verständnis erheblich steigert und es ermöglicht, das Modell in verschiedenen großen Sprachmodellen zu übertragen und wiederzuverwenden. (2) Dynamische Hochauflösung: Wir teilen Bilder je nach Seitenverhältnis und Auflösung des Eingabebildes in Kacheln mit 1 bis 40 Teilen der Größe 448×448 Pixel auf, was eine Eingabe mit bis zu 4K-Auflösung unterstützt. (3) Hochwertiges zweisprachiges Datensatz: Wir haben einen hochwertigen zweisprachigen Datensatz sorgfältig zusammengestellt, der alltägliche Szenen, Dokumentbilder abdeckt und mit englischen und chinesischen Fragen-Antwort-Paaren annotiert ist, was die Leistung in Aufgaben im Bereich OCR und chinesisch-sprachbezogene Aufgaben erheblich verbessert. Wir evaluieren InternVL 1.5 anhand einer Reihe von Benchmarks und vergleichenden Studien. Im Vergleich sowohl zu quelloffenen als auch zu proprietären Modellen zeigt InternVL 1.5 wettbewerbsfähige Leistungen und erzielt state-of-the-art-Ergebnisse in 8 von 18 Benchmarks. Der Quellcode ist unter https://github.com/OpenGVLab/InternVL veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp