HyperAIHyperAI
منذ 2 أشهر

MiniCPM-V: نموذج MLLM على مستوى GPT-4V في هاتفك الذكي

Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
MiniCPM-V: نموذج MLLM على مستوى GPT-4V في هاتفك الذكي
الملخص

الازدهار الأخير في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قد أعاد تشكيل مشهد البحث والصناعة في مجال الذكاء الاصطناعي بشكل جوهري، مما ألقى الضوء على مسار واعد نحو المحطة التالية في تطور الذكاء الاصطناعي. ومع ذلك، لا تزال هناك تحديات كبيرة تعوق استخدام MLLMs في التطبيقات العملية في العالم الحقيقي. يبرز التحدي الأبرز من خلال التكلفة الباهظة لتشغيل نموذج LLM متعدد الوسائط يحتوي على عدد ضخم من المعلمات ويتطلب حسابات مكثفة. نتيجة لذلك، يحتاج معظم النماذج MLLM إلى نشرها على خوادم سحابية عالية الأداء، مما يحد بشكل كبير من نطاقات استخدامها مثل الأجهزة المحمولة، والتطبيقات غير المتصلة بالإنترنت، والتطبيقات الحساسة للطاقة، والتطبيقات التي تحمي الخصوصية.في هذا العمل، نقدم MiniCPM-V، وهي سلسلة من النماذج MLLM الفعالة التي يمكن نشرها على الأجهزة النهائية. من خلال دمج أحدث التقنيات في MLLM في الهيكلية والتدريب الأولي والتوافق، فإن الإصدار الأخير MiniCPM-Llama3-V 2.5 يتمتع بعدة خصائص بارزة: (1) أداء قوي يتفوق على GPT-4V-1106 وGemini Pro وClaude 3 في OpenCompass، وهو تقييم شامل لأحد عشر مقاييس شائعة؛ (2) قدرة قوية على التعرف البصري على الحروف (OCR) وإدراك الصور ذات الدقة العالية بحجم يصل إلى 1.8 مليون بكسل وبأي نسبة عرض إلى ارتفاع؛ (3) سلوك موثوق به مع معدلات هلوسة منخفضة؛ (4) دعم متعدد اللغات لأكثر من ثلاثين لغة؛ و(5) نشر فعال على الهواتف المحمولة.الأهم من ذلك، يمكن اعتبار MiniCPM-V مثالاً ممثلاً لموجة واعدة: تتقلص أحجام النماذج اللازمة لتحقيق مستوى أداء قابل للاستخدام (مثل GPT-4V) بسرعة كبيرة، وذلك بالتوازي مع النمو السريع لقدرات الحوسبة على الأجهزة النهائية. هذا يظهر مجتمعاً أن نشر نماذج MLLM بمستوى GPT-4V على الأجهزة النهائية أصبح أكثر إمكانية يوماً بعد يوم، مما سيفتح طيفًا أوسع من التطبيقات العملية للذكاء الاصطناعي في المستقبل القريب.

MiniCPM-V: نموذج MLLM على مستوى GPT-4V في هاتفك الذكي | أحدث الأوراق البحثية | HyperAI