MiniCPM-V 4.5: أقوى نموذج متعدد الوسائط من الحافة إلى الحافة
1. مقدمة البرنامج التعليمي

MiniCPM-V 4.5 هو نموذجٌ شاملٌ وواسعُ النطاق وفعالٌ للغاية، مفتوح المصدر، من قِبل مختبر معالجة اللغات الطبيعية بجامعة تسينغهوا وشركة Mianbi Intelligence في أغسطس 2025. يحتوي MiniCPM-V 4.5 على 8 مليارات معلمة. يتميز النموذج بأداءٍ ممتاز في العديد من المجالات، مثل الصور والفيديوهات والتعرف الضوئي على الحروف (OCR)، وغيرها، وخاصةً في فهم الفيديوهات عالية التحديث. يمكنه معالجة الفيديوهات عالية التحديث وتحديد محتواها بدقة. يدعم النموذج وضع الاستدلال الهجين لتحقيق التوازن بين الأداء وسرعة الاستجابة. يتميز MiniCPM-V 4.5 بسهولة النشر من الطرف الآخر، مع استهلاكٍ منخفضٍ لذاكرة الفيديو وسرعة استدلال عالية. وهو مناسبٌ للتطبيق في حواسيب السيارات والروبوتات وغيرها من الأجهزة، مما يضع معيارًا جديدًا لتطوير الذكاء الاصطناعي من الطرف الآخر. نتائج البحث ذات الصلة هي:MiniCPM-V: برنامج MLLM بمستوى GPT-4V على هاتفك".
موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.
2. عرض التأثير
فهم الصورة

مقارنة الصور المتعددة

استخراج النص OCR

فهم الفيديو

3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{yao2024minicpm,
title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
journal={arXiv preprint arXiv:2408.01800},
year={2024}
}