HyperAIHyperAI
il y a 2 mois

MiniCPM-V : Un MLLM de niveau GPT-4V sur votre téléphone

Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
MiniCPM-V : Un MLLM de niveau GPT-4V sur votre téléphone
Résumé

L'essor récent des Modèles Linguistiques Multimodaux à Grande Échelle (MLLM) a fondamentalement redessiné le paysage de la recherche et de l'industrie en intelligence artificielle, éclairant une voie prometteuse vers le prochain jalon de l'IA. Cependant, des défis importants subsistent, empêchant les MLLM d'être pratiques dans les applications du monde réel. Le défi le plus notable provient du coût élevé de l'exécution d'un MLLM avec un nombre massif de paramètres et des calculs intensifs. Par conséquent, la plupart des MLLM doivent être déployés sur des serveurs cloud performants, ce qui limite considérablement leurs domaines d'application, notamment les scénarios mobiles, hors ligne, sensibles à l'énergie et protecteurs de la vie privée. Dans cette étude, nous présentons MiniCPM-V, une série de MLLM efficaces pouvant être déployés sur des appareils périphériques. En intégrant les dernières techniques MLLM en matière d'architecture, de préformation et d'alignement, la dernière version MiniCPM-Llama3-V 2.5 présente plusieurs caractéristiques notables : (1) Des performances élevées, surpassant GPT-4V-1106, Gemini Pro et Claude 3 sur OpenCompass, une évaluation complète couvrant 11 benchmarks populaires ; (2) Une capacité OCR robuste et une perception d'images haute résolution (jusqu'à 1,8 million de pixels) à tout ratio d'aspect ; (3) Un comportement fiable avec des taux faibles d'hallucination ; (4) Un support multilingue pour plus de 30 langues ; et (5) Un déploiement efficace sur les téléphones mobiles. Plus important encore, MiniCPM-V peut être considéré comme un exemple représentatif d'une tendance prometteuse : la taille des modèles nécessaires pour atteindre un niveau de performance utilisable (par exemple GPT-4V) diminue rapidement, tandis que la capacité de calcul des appareils périphériques augmente rapidement. Cette évolution conjointe montre que le déploiement de MLLM au niveau GPT-4V sur des appareils périphériques devient de plus en plus possible, ouvrant ainsi un spectre plus large d'applications AI réelles dans un avenir proche.

MiniCPM-V : Un MLLM de niveau GPT-4V sur votre téléphone | Articles de recherche récents | HyperAI