برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

منذ 2 ساعات

في السنوات القليلة الماضية، غرق قطاع الذكاء الاصطناعي بأكمله تقريبًا في سردية قانون التوسع. فكلما زاد عدد المعاملات وبيانات التدريب، اقترب النموذج من "الذكاء العام". ومن مئات المليارات إلى تريليونات المعاملات، جددت النماذج الضخمة باستمرار تصورات الناس عن القدرة على الاستدلال والمعرفة العالمية، وجعلت أيضًا "تكديس قوة الحوسبة والتوسع" المسار الافتراضي لتطوير هذا القطاع.

لكن مع بدء تطبيق الذكاء الاصطناعي فعلياً في الصناعة، تظهر مشكلة حقيقية تدريجياً:لا تتطلب جميع السيناريوهات نشر النماذج الفائقة في مراكز بيانات الحوسبة السحابية.تُسبب تكاليف الاستدلال المرتفعة، وزمن استجابة الشبكة غير القابل للتحكم، ومخاطر خصوصية البيانات المتزايدة الحساسية، اختناقات في نهج النموذج "الكبير والشامل". وقد أصبح "المثلث المستحيل" بين الأداء والسرعة والتكلفة مشكلةً يجب على ديمقراطية الذكاء الاصطناعي معالجتها.

وهكذا، بدأ يظهر اتجاه يبدو غير بديهي: فقد أظهرت النماذج ذات المعلمات الأصغر كفاءة أعلى وفعالية من حيث التكلفة في عدد متزايد من سيناريوهات العالم الحقيقي، وخاصة في الأجهزة الطرفية والبيئات الصناعية ذات التزامن العالي.تتولى النماذج الخفيفة مهامًا أساسية مثل التعرف الضوئي على الأحرف، والإجابة على أسئلة الصور، والتعرف على النوايا.يمكنها العمل دون اتصال بالإنترنت على الأجهزة المحمولة بسرعات تصل إلى أجزاء من الثانية، كما يمكنها التعامل مع التوجيه وخفض التكاليف داخل نظام RAG، لتصبح بنية تحتية حاسمة للتنفيذ الحقيقي لتطبيقات الذكاء الاصطناعي.

في الآونة الأخيرة، قامت شركة Facewall Intelligence وجامعة تسينغهوا وOpenBMB بشكل مشترك بنشر نموذج MiniCPM-V 4.6 متعدد الوسائط من الجيل التالي كمصدر مفتوح. يحتوي هذا النموذج على حوالي 1.3 مليار معلمة فقط، ولكنه يدعم فهم الصور والفيديوهات والتعرف الضوئي على الأحرف (OCR) وقدرات الحوار متعدد الوسائط متعدد الأدوار، وقد تفوق على النماذج الأخرى من نفس المستوى في العديد من التقييمات.

تجدر الإشارة إلى أن بطاقة النموذج الرسمية توفر حل استدلال AutoProcessor و AutoModelForImageTextToText يعتمد على Transformers، وهو مناسب للتحقق السريع ونمذجة التطبيقات في بيئة GPU واحدة.

لتسهيل تجربة هذا النموذج الخفيف للمطورين العالميين، أطلقت HyperAI "MiniCPM-V-4.6: نموذج لغة مرئي متعدد الوسائط فعال لتطبيقات الحافة". اكتملت تهيئة البيئة، ويمكن نشر النموذج عبر الإنترنت بسهولة.

تشغيل عبر الإنترنت:https://go.hyper.ai/GVDmw

اطلع على الأبحاث ذات الصلة:

https://hyper.ai/papers/2605.08985

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "MiniCPM-V-4.6: نموذج لغة مرئية متعدد الوسائط فعال للأجهزة"، وانقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI مكافأة تسجيل للمستخدمين الجدد: مقابل $1 فقط، يمكنك الحصول على 20 ساعة من قوة الحوسبة RTX 5090 (بسعر أصلي $7)، والموارد صالحة إلى أجل غير مسمى.

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

منذ 2 ساعات

تشغيل عبر الإنترنت:https://go.hyper.ai/GVDmw

اطلع على الأبحاث ذات الصلة:

https://hyper.ai/papers/2605.08985

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

تشغيل تجريبي

تشغيل تجريبي

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.

تشغيل تجريبي

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.

Command Palette

تشغيل تجريبي

Command Palette

تشغيل تجريبي

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.

Command Palette

تشغيل تجريبي

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | انشر OpenClaw باستخدام وحدة المعالجة المركزية المجانية وقم بدمجه بسهولة مع برامج التواصل الاجتماعي مثل Lark/Discord

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | استنادًا إلى 5 ملايين ساعة من بيانات الصوت، يحقق Qwen3-TTS استنساخ الصوت وضبطه بدقة في 3 ثوانٍ.

دروس تعليمية عبر الإنترنت | نشر سريع مع موارد وحدة المعالجة المركزية المجانية، تغطي نماذج المصادر المفتوحة الشائعة مثل Qwen 3.5/DeepSeek-R1/Gemma 3/Llama 3.2، إلخ.