مينيماكس-م1: توسيع الحوسبة الفعالة في وقت الاختبار باستخدام انتباه البرق

نقدم نموذج MiniMax-M1، وهو أول نموذج استدلال بانتباه مختلط على نطاق واسع ومفتوح الوزن في العالم. يتم تشغيل MiniMax-M1 بواسطة هندسة مزيج الخبراء (Mixture-of-Experts - MoE) المختلطة مع آلية انتباه سريعة كالبرق. تم تطوير هذا النموذج بناءً على نموذجنا السابق MiniMax-Text-01، الذي يحتوي على إجمالي 456 مليار معلمة، منها 45.9 مليار معلمة تُفعّل لكل رمز. يدعم النموذج M1 بشكل أصلي طول سياق يصل إلى مليون رمز، أي ثمانية أضعاف حجم السياق في DeepSeek R1. بالإضافة إلى ذلك، تمكن آلية الانتباه السريع كالبرق في MiniMax-M1 من توسيع الحوسبة بكفاءة أثناء الاختبار. هذه الخصائص تجعل M1 مناسبًا بشكل خاص للمهام المعقدة التي تتطلب معالجة مدخلات طويلة والتفكير بعمق كبير. يتم تدريب MiniMax-M1 باستخدام التعلم التعزيزي (Reinforcement Learning - RL) على نطاق واسع في بيئات مختلفة، بما في ذلك بيئات الهندسة البرمجية الواقعية المستندة إلى الصندوق الرمادي (sandbox). بالإضافة إلى الميزة الكفاءة الأصلية للنموذج M1 في التدريب بالتعلم التعزيزي، نقترح CISPO، وهو خوارزمية تعلم تعزيزي جديدة لتعزيز كفاءة RL بشكل أكبر. يقوم CISPO بقص أوزان العينة الهامة بدلاً من تحديثات الرموز، مما يجعله يتفوق على باقي المتغيرات التنافسية للتعلم التعزيزي. الجمع بين الانتباه المختلط وCISPO يمكن نموذج MiniMax-M1 من إكمال التدريب الكامل بالتعلم التعزيزي على 512 معالج GPU من نوع H800 خلال ثلاثة أسابيع فقط، وبتكلفة إيجار قدرها 534,700 دولار أمريكي فقط. نطلق إصدارين من نماذج MiniMax-M1 بموازنات تفكير تبلغ 40 ألف و80 ألف رمز على التوالي، حيث يمثل الإصدار ذو الموازنة 40 ألف مرحلة وسيطة في التدريب ذو الموازنة 80 ألف. أظهرت التجارب على مقاييس القياس القياسية أن نماذجنا مكافئة أو أفضل من النماذج ذات الوزن المفتوح القوية مثل DeepSeek-R1 الأصلي وQwen3-235B، خاصة في مجال الهندسة البرمجية المعقدة واستخدام الأدوات والمهام ذات السياق الطويل. سنقوم بإطلاق MiniMax-M1 للجمهور عبر الرابط https://github.com/MiniMax-AI/MiniMax-M1.请注意,这里“H800”是GPU型号名称,通常在阿拉伯语中也会保留英文原名。另外,“沙箱”(Sandbox)在科技领域中通常翻译为“صندوق الرمادي”,但根据上下文和具体应用领域,有时也直接使用“بيئة اختبار”来表示。