HyperAIHyperAI

Command Palette

Search for a command to run...

Erweiterung der Leistungsgrenzen offener multimodaler Modelle durch Modell-, Datensatz- und Testzeit-Skalierung

Zusammenfassung

Wir stellen InternVL 2.5 vor, eine fortschrittliche Multimodal-Größensprachmodell-(MLLM)-Reihe, die auf InternVL 2.0 aufbaut und dessen grundlegende Modellarchitektur beibehält, während sie signifikante Verbesserungen in Trainings- und Teststrategien sowie in der Datenqualität einführt. In dieser Arbeit untersuchen wir systematisch die Beziehung zwischen Modellskalierung und Leistung und analysieren die Leistungstrends in den Bereichen Vision-Encoder, Sprachmodelle, Datensatzgrößen und Testzeit-Konfigurationen. Durch umfangreiche Evaluierungen auf einer Vielzahl von Benchmarks – einschließlich multidisziplinärer Schlussfolgerung, Dokumentenverständnis, Mehrbild-/Videoverständnis, Realwelt-Komprehension, multimodale Halluzinationsdetektion, visuelle Grundlegung, mehrsprachige Fähigkeiten sowie reine Sprachverarbeitung – zeigt InternVL 2.5 wettbewerbsfähige Leistung und erreicht Niveau mit führenden kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet. Besonders hervorzuheben ist, dass unser Modell das erste offene-Quell-MLLM ist, das die 70-Prozent-Marke im MMMU-Benchmark überschreitet, wobei es durch Chain-of-Thought-(CoT)-Schlussfolgerung eine Verbesserung um 3,7 Punkte erzielt und ein großes Potenzial für Testzeit-Skalierung zeigt. Wir hoffen, dass dieses Modell durch die Setzung neuer Standards für die Entwicklung und Anwendung multimodaler KI-Systeme einen wertvollen Beitrag an die Open-Source-Community leistet. Demo auf HuggingFace: https://huggingface.co/spaces/OpenGVLab/InternVL


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erweiterung der Leistungsgrenzen offener multimodaler Modelle durch Modell-, Datensatz- und Testzeit-Skalierung | Paper | HyperAI