MiniCPM-V 4.5: طهي نماذج اللغة والرؤية متعددة الطبقات بكفاءة من خلال البنية المعمارية، والبيانات، ووصفة التدريب

تشهد نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدماً سريعاً، وتمثّل ذروة تطور الذكاء الاصطناعي. ومع ذلك، أصبحت كفاءة التدريب والاستنتاج عائقاً رئيسياً يحد من إمكانية الوصول إلى هذه النماذج وتوسيع نطاق استخدامها. ولحل هذه التحديات، نقدّم نموذج MiniCPM-V 4.5، وهو نموذج يضم 8 مليار معلمة، صُمّم لتحقيق كفاءة عالية وأداء قويًا. ونُقدّم ثلاث تحسينات أساسية في بنية النموذج، واستراتيجية البيانات، وطريقة التدريب: وهي بنية نموذج موحّدة ذات مُعدّل ثلاثي الأبعاد (3D-Resampler) لتمثيل مكثّف للغاية للصور والفيديوهات، ونمط تعلّم موحّد لدمج المعرفة الوثائقية والاعتراف بالنصوص دون الحاجة إلى هندسة بيانات معقدة، واستراتيجية تعلم تعزيزي هجينة تُمكّن النموذج من الإتقان في كل من النمطين القصير والطويل للاستنتاج. وأظهرت نتائج التجارب الشاملة في تقييم OpenCompass أن MiniCPM-V 4.5 يتفوّق على نماذج مُخصّصة شائعة الاستخدام مثل GPT-4o-latest، وعلى نماذج مفتوحة المصدر الأكبر حجماً مثل Qwen2.5-VL 72B. وبشكل لافت، تم تحقيق هذا الأداء العالي مع كفاءة ملحوظة. فعلى سبيل المثال، في معيار VideoMME الشائع الاستخدام، حقق MiniCPM-V 4.5 أفضل أداء في فئة النماذج التي تقلّ عدد معلماتها عن 30 مليار، بتكاليف ذاكرة GPU لا تتجاوز 46.7%، وبزمن استنتاج يُقدّر بنحو 8.7% من زمن Qwen2.5-VL 7B.