MiniCPM-V 4,5: Effiziente MLLMs durch Architektur, Daten und Trainingsrezept

Multimodale große Sprachmodelle (MLLMs) erleben eine rasante Entwicklung und stehen an der Spitze der KI-Forschung. Dennoch sind Effizienz bei Training und Inferenz zu einem zentralen Engpass geworden, der die Zugänglichkeit und Skalierbarkeit von MLLMs einschränkt. Um diesen Herausforderungen zu begegnen, stellen wir MiniCPM-V 4.5 vor – ein Modell mit 8 Milliarden Parametern, das für hohe Effizienz und starke Leistung ausgelegt ist. Wir führen drei zentrale Verbesserungen in Architektur, Datenstrategie und Trainingsmethode ein: eine einheitliche 3D-Resampler-Architektur zur hochkompakten Kodierung von Bildern und Videos, ein einheitliches Lernparadigma für Dokumentenwissen und Texterkennung ohne aufwändige Datenvorverarbeitung, sowie eine hybride Reinforcement-Learning-Strategie zur Beherrschung sowohl kurzer als auch langer Schlussfolgerungsmuster. Umfassende Experimente im Rahmen der OpenCompass-Evaluation zeigen, dass MiniCPM-V 4.5 weit verbreitete proprietäre Modelle wie GPT-4o-latest und deutlich größere Open-Source-Modelle wie Qwen2.5-VL 72B übertrifft. Besonders hervorzuheben ist, dass diese herausragende Leistung mit bemerkenswerter Effizienz erzielt wird: So erreicht MiniCPM-V 4.5 auf dem weit verbreiteten VideoMME-Benchmark den Stand der Technik unter Modellen mit weniger als 30 Milliarden Parametern, wobei lediglich 46,7 % des GPU-Speicherverbrauchs und 8,7 % der Inferenzzeit von Qwen2.5-VL 7B benötigt werden.