منذ 18 أيام

MiniCPM-V 4.5: طهي نماذج اللغة والرؤية متعددة الطبقات بكفاءة من خلال البنية المعمارية، والبيانات، ووصفة التدريب

Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun

عرض تفاصيل الورقة البحثية View Code

MiniCPM-V 4.5: طهي نماذج اللغة والرؤية متعددة الطبقات بكفاءة من خلال البنية المعمارية، والبيانات، ووصفة التدريب

الملخص

تشهد نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدماً سريعاً، وتمثّل ذروة تطور الذكاء الاصطناعي. ومع ذلك، أصبحت كفاءة التدريب والاستنتاج عائقاً رئيسياً يحد من إمكانية الوصول إلى هذه النماذج وتوسيع نطاق استخدامها. ولحل هذه التحديات، نقدّم نموذج MiniCPM-V 4.5، وهو نموذج يضم 8 مليار معلمة، صُمّم لتحقيق كفاءة عالية وأداء قويًا. ونُقدّم ثلاث تحسينات أساسية في بنية النموذج، واستراتيجية البيانات، وطريقة التدريب: وهي بنية نموذج موحّدة ذات مُعدّل ثلاثي الأبعاد (3D-Resampler) لتمثيل مكثّف للغاية للصور والفيديوهات، ونمط تعلّم موحّد لدمج المعرفة الوثائقية والاعتراف بالنصوص دون الحاجة إلى هندسة بيانات معقدة، واستراتيجية تعلم تعزيزي هجينة تُمكّن النموذج من الإتقان في كل من النمطين القصير والطويل للاستنتاج. وأظهرت نتائج التجارب الشاملة في تقييم OpenCompass أن MiniCPM-V 4.5 يتفوّق على نماذج مُخصّصة شائعة الاستخدام مثل GPT-4o-latest، وعلى نماذج مفتوحة المصدر الأكبر حجماً مثل Qwen2.5-VL 72B. وبشكل لافت، تم تحقيق هذا الأداء العالي مع كفاءة ملحوظة. فعلى سبيل المثال، في معيار VideoMME الشائع الاستخدام، حقق MiniCPM-V 4.5 أفضل أداء في فئة النماذج التي تقلّ عدد معلماتها عن 30 مليار، بتكاليف ذاكرة GPU لا تتجاوز 46.7%، وبزمن استنتاج يُقدّر بنحو 8.7% من زمن Qwen2.5-VL 7B.