HyperAIHyperAI
vor 18 Tagen

MiniCPM-V 4,5: Effiziente MLLMs durch Architektur, Daten und Trainingsrezept

Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun
MiniCPM-V 4,5: Effiziente MLLMs durch Architektur, Daten und Trainingsrezept
Abstract

Multimodale große Sprachmodelle (MLLMs) erleben eine rasante Entwicklung und stehen an der Spitze der KI-Forschung. Dennoch sind Effizienz bei Training und Inferenz zu einem zentralen Engpass geworden, der die Zugänglichkeit und Skalierbarkeit von MLLMs einschränkt. Um diesen Herausforderungen zu begegnen, stellen wir MiniCPM-V 4.5 vor – ein Modell mit 8 Milliarden Parametern, das für hohe Effizienz und starke Leistung ausgelegt ist. Wir führen drei zentrale Verbesserungen in Architektur, Datenstrategie und Trainingsmethode ein: eine einheitliche 3D-Resampler-Architektur zur hochkompakten Kodierung von Bildern und Videos, ein einheitliches Lernparadigma für Dokumentenwissen und Texterkennung ohne aufwändige Datenvorverarbeitung, sowie eine hybride Reinforcement-Learning-Strategie zur Beherrschung sowohl kurzer als auch langer Schlussfolgerungsmuster. Umfassende Experimente im Rahmen der OpenCompass-Evaluation zeigen, dass MiniCPM-V 4.5 weit verbreitete proprietäre Modelle wie GPT-4o-latest und deutlich größere Open-Source-Modelle wie Qwen2.5-VL 72B übertrifft. Besonders hervorzuheben ist, dass diese herausragende Leistung mit bemerkenswerter Effizienz erzielt wird: So erreicht MiniCPM-V 4.5 auf dem weit verbreiteten VideoMME-Benchmark den Stand der Technik unter Modellen mit weniger als 30 Milliarden Parametern, wobei lediglich 46,7 % des GPU-Speicherverbrauchs und 8,7 % der Inferenzzeit von Qwen2.5-VL 7B benötigt werden.