HyperAIHyperAI
vor 2 Monaten

MiniCPM-V: Ein MLLM auf dem Niveau von GPT-4V auf Ihrem Smartphone

Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
MiniCPM-V: Ein MLLM auf dem Niveau von GPT-4V auf Ihrem Smartphone
Abstract

Der jüngste Anstieg der multimodalen großen Sprachmodelle (MLLMs) hat das Forschungs- und Industrielandschaft der KI grundlegend umgestaltet und einen vielversprechenden Weg zum nächsten Meilenstein der KI aufgezeigt. Dennoch bestehen erhebliche Herausforderungen, die die praktische Anwendung von MLLMs in realen Szenarien verhindern. Die bedeutendste Herausforderung stammt aus den enormen Kosten, die mit dem Betrieb eines MLLMs mit einer riesigen Anzahl von Parametern und umfangreichen Berechnungen verbunden sind. Daher müssen die meisten MLLMs auf hochleistungsfähigen Cloud-Servern bereitgestellt werden, was ihre Anwendungsbereiche stark einschränkt, insbesondere in mobilen, offline, energieeffizienten und datenschutzfreundlichen Szenarien. In dieser Arbeit stellen wir MiniCPM-V vor, eine Reihe effizienter MLLMs, die auf Endgeräten bereitgestellt werden können. Durch die Integration der neuesten MLLM-Techniken in Architektur, Vorabtrainierung und Ausrichtung zeichnet sich das aktuellste MiniCPM-Llama3-V 2.5 durch mehrere bemerkenswerte Merkmale aus: (1) Starke Leistung, wobei es GPT-4V-1106, Gemini Pro und Claude 3 bei OpenCompass übertrifft, einer umfassenden Bewertung über 11 beliebte Benchmarks; (2) starke OCR-Fähigkeiten und Wahrnehmung hochaufgelöster Bilder mit bis zu 1,8 Millionen Pixeln in jedem Seitenverhältnis; (3) vertrauenswürdiges Verhalten mit niedrigen Halluzinationsraten; (4) Unterstützung mehrerer Sprachen für über 30 Sprachen; und (5) effiziente Bereitstellung auf Mobiltelefonen. Noch wichtiger ist, dass MiniCPM-V als repräsentatives Beispiel für einen vielversprechenden Trend angesehen werden kann: Die Modellgrößen zur Erreichung nutzbarer Leistungsstufen (z.B. GPT-4V) verringern sich rasch, parallel zur schnellen Steigerung der Rechenkapazität auf Endgeräten. Dies zeigt gemeinsam, dass die Bereitstellung von GPT-4V-Niveau-MLLMs auf Endgeräten zunehmend möglich wird und so ein breiteres Spektrum realer KI-Anwendungen in absehbarer Zukunft erschlossen wird.

MiniCPM-V: Ein MLLM auf dem Niveau von GPT-4V auf Ihrem Smartphone | Neueste Forschungsarbeiten | HyperAI