HyperAIHyperAI

Command Palette

Search for a command to run...

MiniCPM-V 4,5: Effiziente MLLMs durch Architektur, Daten und Trainingsrezept

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) erleben eine rasante Entwicklung und stehen an der Spitze der KI-Forschung. Dennoch sind Effizienz bei Training und Inferenz zu einem zentralen Engpass geworden, der die Zugänglichkeit und Skalierbarkeit von MLLMs einschränkt. Um diesen Herausforderungen zu begegnen, stellen wir MiniCPM-V 4.5 vor – ein Modell mit 8 Milliarden Parametern, das für hohe Effizienz und starke Leistung ausgelegt ist. Wir führen drei zentrale Verbesserungen in Architektur, Datenstrategie und Trainingsmethode ein: eine einheitliche 3D-Resampler-Architektur zur hochkompakten Kodierung von Bildern und Videos, ein einheitliches Lernparadigma für Dokumentenwissen und Texterkennung ohne aufwändige Datenvorverarbeitung, sowie eine hybride Reinforcement-Learning-Strategie zur Beherrschung sowohl kurzer als auch langer Schlussfolgerungsmuster. Umfassende Experimente im Rahmen der OpenCompass-Evaluation zeigen, dass MiniCPM-V 4.5 weit verbreitete proprietäre Modelle wie GPT-4o-latest und deutlich größere Open-Source-Modelle wie Qwen2.5-VL 72B übertrifft. Besonders hervorzuheben ist, dass diese herausragende Leistung mit bemerkenswerter Effizienz erzielt wird: So erreicht MiniCPM-V 4.5 auf dem weit verbreiteten VideoMME-Benchmark den Stand der Technik unter Modellen mit weniger als 30 Milliarden Parametern, wobei lediglich 46,7 % des GPU-Speicherverbrauchs und 8,7 % der Inferenzzeit von Qwen2.5-VL 7B benötigt werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MiniCPM-V 4,5: Effiziente MLLMs durch Architektur, Daten und Trainingsrezept | Paper | HyperAI