HyperAIHyperAI

Command Palette

Search for a command to run...

MiniCPM-V 4.5: طهي نماذج اللغة والرؤية متعددة الطبقات بكفاءة من خلال البنية المعمارية، والبيانات، ووصفة التدريب

الملخص

تشهد نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدماً سريعاً، وتمثّل ذروة تطور الذكاء الاصطناعي. ومع ذلك، أصبحت كفاءة التدريب والاستنتاج عائقاً رئيسياً يحد من إمكانية الوصول إلى هذه النماذج وتوسيع نطاق استخدامها. ولحل هذه التحديات، نقدّم نموذج MiniCPM-V 4.5، وهو نموذج يضم 8 مليار معلمة، صُمّم لتحقيق كفاءة عالية وأداء قويًا. ونُقدّم ثلاث تحسينات أساسية في بنية النموذج، واستراتيجية البيانات، وطريقة التدريب: وهي بنية نموذج موحّدة ذات مُعدّل ثلاثي الأبعاد (3D-Resampler) لتمثيل مكثّف للغاية للصور والفيديوهات، ونمط تعلّم موحّد لدمج المعرفة الوثائقية والاعتراف بالنصوص دون الحاجة إلى هندسة بيانات معقدة، واستراتيجية تعلم تعزيزي هجينة تُمكّن النموذج من الإتقان في كل من النمطين القصير والطويل للاستنتاج. وأظهرت نتائج التجارب الشاملة في تقييم OpenCompass أن MiniCPM-V 4.5 يتفوّق على نماذج مُخصّصة شائعة الاستخدام مثل GPT-4o-latest، وعلى نماذج مفتوحة المصدر الأكبر حجماً مثل Qwen2.5-VL 72B. وبشكل لافت، تم تحقيق هذا الأداء العالي مع كفاءة ملحوظة. فعلى سبيل المثال، في معيار VideoMME الشائع الاستخدام، حقق MiniCPM-V 4.5 أفضل أداء في فئة النماذج التي تقلّ عدد معلماتها عن 30 مليار، بتكاليف ذاكرة GPU لا تتجاوز 46.7%، وبزمن استنتاج يُقدّر بنحو 8.7% من زمن Qwen2.5-VL 7B.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MiniCPM-V 4.5: طهي نماذج اللغة والرؤية متعددة الطبقات بكفاءة من خلال البنية المعمارية، والبيانات، ووصفة التدريب | مستندات | HyperAI