HyperAI

مينيماكس-م1: توسيع الحوسبة الفعالة في وقت الاختبار باستخدام انتباه البرق

MiniMax, Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan, Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao, Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang, Jiaren Cai, Jiayuan Song, Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang, Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong, Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang, Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun
تاريخ النشر: 6/17/2025
مينيماكس-م1: توسيع الحوسبة الفعالة في وقت الاختبار باستخدام انتباه البرق
الملخص

نقدم نموذج MiniMax-M1، وهو أول نموذج استدلال بانتباه مختلط على نطاق واسع ومفتوح الوزن في العالم. يتم تشغيل MiniMax-M1 بواسطة هندسة مزيج الخبراء (Mixture-of-Experts - MoE) المختلطة مع آلية انتباه سريعة كالبرق. تم تطوير هذا النموذج بناءً على نموذجنا السابق MiniMax-Text-01، الذي يحتوي على إجمالي 456 مليار معلمة، منها 45.9 مليار معلمة تُفعّل لكل رمز. يدعم النموذج M1 بشكل أصلي طول سياق يصل إلى مليون رمز، أي ثمانية أضعاف حجم السياق في DeepSeek R1. بالإضافة إلى ذلك، تمكن آلية الانتباه السريع كالبرق في MiniMax-M1 من توسيع الحوسبة بكفاءة أثناء الاختبار. هذه الخصائص تجعل M1 مناسبًا بشكل خاص للمهام المعقدة التي تتطلب معالجة مدخلات طويلة والتفكير بعمق كبير. يتم تدريب MiniMax-M1 باستخدام التعلم التعزيزي (Reinforcement Learning - RL) على نطاق واسع في بيئات مختلفة، بما في ذلك بيئات الهندسة البرمجية الواقعية المستندة إلى الصندوق الرمادي (sandbox). بالإضافة إلى الميزة الكفاءة الأصلية للنموذج M1 في التدريب بالتعلم التعزيزي، نقترح CISPO، وهو خوارزمية تعلم تعزيزي جديدة لتعزيز كفاءة RL بشكل أكبر. يقوم CISPO بقص أوزان العينة الهامة بدلاً من تحديثات الرموز، مما يجعله يتفوق على باقي المتغيرات التنافسية للتعلم التعزيزي. الجمع بين الانتباه المختلط وCISPO يمكن نموذج MiniMax-M1 من إكمال التدريب الكامل بالتعلم التعزيزي على 512 معالج GPU من نوع H800 خلال ثلاثة أسابيع فقط، وبتكلفة إيجار قدرها 534,700 دولار أمريكي فقط. نطلق إصدارين من نماذج MiniMax-M1 بموازنات تفكير تبلغ 40 ألف و80 ألف رمز على التوالي، حيث يمثل الإصدار ذو الموازنة 40 ألف مرحلة وسيطة في التدريب ذو الموازنة 80 ألف. أظهرت التجارب على مقاييس القياس القياسية أن نماذجنا مكافئة أو أفضل من النماذج ذات الوزن المفتوح القوية مثل DeepSeek-R1 الأصلي وQwen3-235B، خاصة في مجال الهندسة البرمجية المعقدة واستخدام الأدوات والمهام ذات السياق الطويل. سنقوم بإطلاق MiniMax-M1 للجمهور عبر الرابط https://github.com/MiniMax-AI/MiniMax-M1.请注意,这里“H800”是GPU型号名称,通常在阿拉伯语中也会保留英文原名。另外,“沙箱”(Sandbox)在科技领域中通常翻译为“صندوق الرمادي”,但根据上下文和具体应用领域,有时也直接使用“بيئة اختبار”来表示。