vor 17 Tagen

Erweiterung der Leistungsgrenzen offener multimodaler Modelle durch Modell-, Datensatz- und Testzeit-Skalierung

Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

Details der Forschungsarbeit anzeigen

Erweiterung der Leistungsgrenzen offener multimodaler Modelle durch Modell-, Datensatz- und Testzeit-Skalierung

Abstract

Wir stellen InternVL 2.5 vor, eine fortschrittliche Multimodal-Größensprachmodell-(MLLM)-Reihe, die auf InternVL 2.0 aufbaut und dessen grundlegende Modellarchitektur beibehält, während sie signifikante Verbesserungen in Trainings- und Teststrategien sowie in der Datenqualität einführt. In dieser Arbeit untersuchen wir systematisch die Beziehung zwischen Modellskalierung und Leistung und analysieren die Leistungstrends in den Bereichen Vision-Encoder, Sprachmodelle, Datensatzgrößen und Testzeit-Konfigurationen. Durch umfangreiche Evaluierungen auf einer Vielzahl von Benchmarks – einschließlich multidisziplinärer Schlussfolgerung, Dokumentenverständnis, Mehrbild-/Videoverständnis, Realwelt-Komprehension, multimodale Halluzinationsdetektion, visuelle Grundlegung, mehrsprachige Fähigkeiten sowie reine Sprachverarbeitung – zeigt InternVL 2.5 wettbewerbsfähige Leistung und erreicht Niveau mit führenden kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet. Besonders hervorzuheben ist, dass unser Modell das erste offene-Quell-MLLM ist, das die 70-Prozent-Marke im MMMU-Benchmark überschreitet, wobei es durch Chain-of-Thought-(CoT)-Schlussfolgerung eine Verbesserung um 3,7 Punkte erzielt und ein großes Potenzial für Testzeit-Skalierung zeigt. Wir hoffen, dass dieses Modell durch die Setzung neuer Standards für die Entwicklung und Anwendung multimodaler KI-Systeme einen wertvollen Beitrag an die Open-Source-Community leistet. Demo auf HuggingFace: https://huggingface.co/spaces/OpenGVLab/InternVL