Erweiterung der Leistungsgrenzen offener multimodaler Modelle durch Modell-, Datensatz- und Testzeit-Skalierung

Wir stellen InternVL 2.5 vor, eine fortschrittliche Multimodal-Größensprachmodell-(MLLM)-Reihe, die auf InternVL 2.0 aufbaut und dessen grundlegende Modellarchitektur beibehält, während sie signifikante Verbesserungen in Trainings- und Teststrategien sowie in der Datenqualität einführt. In dieser Arbeit untersuchen wir systematisch die Beziehung zwischen Modellskalierung und Leistung und analysieren die Leistungstrends in den Bereichen Vision-Encoder, Sprachmodelle, Datensatzgrößen und Testzeit-Konfigurationen. Durch umfangreiche Evaluierungen auf einer Vielzahl von Benchmarks – einschließlich multidisziplinärer Schlussfolgerung, Dokumentenverständnis, Mehrbild-/Videoverständnis, Realwelt-Komprehension, multimodale Halluzinationsdetektion, visuelle Grundlegung, mehrsprachige Fähigkeiten sowie reine Sprachverarbeitung – zeigt InternVL 2.5 wettbewerbsfähige Leistung und erreicht Niveau mit führenden kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet. Besonders hervorzuheben ist, dass unser Modell das erste offene-Quell-MLLM ist, das die 70-Prozent-Marke im MMMU-Benchmark überschreitet, wobei es durch Chain-of-Thought-(CoT)-Schlussfolgerung eine Verbesserung um 3,7 Punkte erzielt und ein großes Potenzial für Testzeit-Skalierung zeigt. Wir hoffen, dass dieses Modell durch die Setzung neuer Standards für die Entwicklung und Anwendung multimodaler KI-Systeme einen wertvollen Beitrag an die Open-Source-Community leistet. Demo auf HuggingFace: https://huggingface.co/spaces/OpenGVLab/InternVL