HyperAIHyperAI

Command Palette

Search for a command to run...

نشر MiniMax M3 على نيفيديا

تعلن عن نشر نموذج MiniMax M3 متعدد الوسائط على البنية التحتية المسرعة من NVIDIA، في خطوة تهدف إلى تجاوز تعقيدات تكامل الأنظمة الذرية المشتتة التي تعاني منها المؤسسات حالياً. يدعم النموذج، الذي يعمل بكفاءة على رقائق NVIDIA Blackwell، استدلالاً سياقيًا طويلاً يصل إلى مليون رمز، ويعالج النصوص والصور والفيديو بشكل متزامن عبر بنية مزيج من الخبراء بـ 428 مليار معلمة، مع تفعيل 22 مليار معلمة نشطة لكل وحدة معالجة. يكمن الابتكار الرئيسي للمعمارية في خوارزمية MiniMax Sparse Attention، التي تحل محل آلية الانتباه التربيعية التقليدية بمرحلة تصفية مسبقة تركز فقط على كتل السياق ذات الصلة. تؤدي هذه الآلية إلى قراءة كتلة ذاكرة التخزين المؤقت مرة واحدة بنفاذ متسلسل للذاكرة، مما يسرّع العملية بأكثر من أربعة أضعاف مقارنة بتنفيذ الانتباه المتقطع الحالي. ونتيجة لذلك، انخفض استهلاك الحوسبة لكل رمز إلى عُشر ما كان عليه في الإصدار السابق عند السياق الطويل، مع تسريع مرحلة التعبئة بنسبة 9 أضعاف ومرحلة الفك بنسبة 15 ضعفاً، دون أي ضغط في البيانات أو فقدان للدقة. تم تدريب النموذج أصلاً على نحو 100 تريليون رمز متشابك، مما يضمن فهماً جوهرياً متعدد الوسائط منذ المراحل الأولى. يوفر نظام NVIDIA مساراً إنتاجياً جاهزاً للنشر عبر محركات الاستدلال مفتوحة المصدر مثل TensorRT LLM وSGLang وvLLM. ويبرز نظام NVIDIA Dynamo كأداة توزيع متقدمة تفصل بين مرحلتي التعبئة والفك عبر وحدات رسومية منفصلة، مما يحقق تحسناً بنسبة 400% في التفاعلية عند طول تسلسل 32 ألف رمز على بنيات Blackwell، مع الحفاظ على الكفاءة العالية والميزانية الحسابية. كما يتيح إطار عمل NeMo Framework إمكانية التخصيص والدقة الدقيقة للنموذج وفقاً لاحتياجات كل مؤسسة، مدعوماً بمكتبات خفيفة تهدف لتسريع التجريب. يمكن للمطورين الآن استكشاف قدرات النموذج عبر واجهة برمجة التطبيقات المعجلة على منصات NVIDIA، أو تحميل الأوزان من مستودعات Hugging Face. يمثل هذا الإصدار نقلة نوعية في تبسيط تدفقات العمل الوكيلية طويلة المدة، وفهم الفيديو المعقد، وأتمتة سير التصميم، مما يوفر بديلاً عملياً يقلل التكاليف ويختصر وقت التطوير في البيئات المؤسسية المتقدمة.

الروابط ذات الصلة