2달 전

MiniMax-M1: 라이트닝 어텐션을 활용한 테스트 시간 컴퓨팅 효율성 확장

MiniMax, Aili Chen, Aonian Li, Bangwei Gong, Binyang Jiang, Bo Fei, Bo Yang, Boji Shan, Changqing Yu, Chao Wang, Cheng Zhu, Chengjun Xiao, Chengyu Du, Chi Zhang, Chu Qiao, Chunhao Zhang, Chunhui Du, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dong Li, Enwei Jiao, Haigang Zhou, Haimo Zhang, Han Ding, Haohai Sun, Haoyu Feng, Huaiguang Cai, Haichao Zhu, Jian Sun, Jiaqi Zhuang, Jiaren Cai, Jiayuan Song, Jin Zhu, Jingyang Li, Jinhao Tian, Jinli Liu, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kaiyi Feng, Ke Yang, Kecheng Xiao, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Li, Lin Zheng, Linge Du, Lingyu Yang, Lunbin Zeng, Minghui Yu, Mingliang Tao, Mingyuan Chi, Mozhi Zhang, Mujie Lin, Nan Hu, Nongyu Di, Peng Gao, Pengfei Li, Pengyu Zhao, Qibing Ren, Qidi Xu, Qile Li, Qin Wang, Rong Tian, Ruitao Leng, Shaoxiang Chen, Shaoyu Chen, Shengmin Shi, Shitong Weng, Shuchang Guan, Shuqi Yu, Sichen Li, Songquan Zhu, Tengfei Li, Tianchi Cai, Tianrun Liang, Weiyu Cheng, Weize Kong, Wenkai Li, Xiancai Chen, Xiangjun Song, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xinzhu Hou, Xuan Lu, Xun Zou, Xuyang Shen, Yan Gong, Yan Ma, Yang Wang, Yiqi Shi, Yiran Zhong, Yonghong Duan, Yongxiang Fu, Yongyi Hu, Yu Gao, Yuanxiang Fan, Yufeng Yang, Yuhao Li, Yulin Hu, Yunan Huang, Yunji Li, Yunzhi Xu, Yuxin Mao, Yuxuan Shi, Yuze Wenren, Zehan Li, Zelin Li, Zhanxu Tian, Zhengmao Zhu, Zhenhua Fan, Zhenzhen Wu, Zhichao Xu, Zhihang Yu, Zhiheng Lyu, Zhuo Jiang, Zibo Gao, Zijia Wu, Zijian Song, Zijun Sun

논문 세부 정보 보기 View Code

MiniMax-M1: 라이트닝 어텐션을 활용한 테스트 시간 컴퓨팅 효율성 확장

초록

우리는 세계 최초의 오픈 웨이트, 대규모 하이브리드 어텐션 추론 모델인 MiniMax-M1을 소개합니다. MiniMax-M1은 하이브리드 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처와 라이트닝 어텐션 메커니즘을 결합하여 구동됩니다. 이 모델은 총 4560억 개의 파라미터를 포함하고 있으며, 각 토큰당 45.9억 개의 파라미터가 활성화되는 이전의 MiniMax-Text-01 모델을 기반으로 개발되었습니다. M1 모델은 본래 100만 토큰 길이의 컨텍스트를 지원하며, 이는 DeepSeek R1의 컨텍스트 크기보다 8배 큽니다. 또한, MiniMax-M1의 라이트닝 어텐션 메커니즘은 테스트 시 컴퓨팅 효율성을 크게 향상시킵니다. 이러한 특성들로 인해 M1은 긴 입력 처리와 깊은 사고가 필요한 복잡한 작업에 특히 적합합니다.MiniMax-M1은 샌드박스 기반 및 실제 소프트웨어 공학 환경과 같은 다양한 문제에 대한 대규모 강화 학습(Reinforcement Learning, RL)으로 훈련되었습니다. M1의 RL 훈련에서 내재된 효율성 이점 외에도, 우리는 RL 효율성을 더욱 높이는 새로운 RL 알고리즘인 CISPO를 제안합니다. CISPO는 토큰 업데이트가 아닌 중요도 샘플링 가중치를 클리핑하여 다른 경쟁적인 RL 변형보다 우수한 성능을 보입니다. 하이브리드 어텐션과 CISPO를 결합함으로써 MiniMax-M1은 512개의 H800 GPU에서 전체 RL 훈련을 단 세 주 만에 완료할 수 있었으며, 임대 비용은 단지 534,700달러였습니다.우리는 각각 4만 개와 8만 개의 사고 예산을 갖춘 두 가지 버전의 MiniMax-M1 모델을 출시합니다. 여기서 4만 개 모델은 8만 개 모델 훈련 과정의 중간 단계를 나타냅니다. 표준 벤치마크 실험 결과, 우리의 모델들은 원래 DeepSeek-R1과 Qwen3-235B 등 강력한 오픈 웨이트 모델들과 비교할 때 유사하거나 우월한 성능을 보였으며, 특히 복잡한 소프트웨어 공학, 도구 활용 및 장 컨텍스트 작업에서 강점을 보였습니다. 우리는 MiniMax-M1을 공개적으로 출시하며, 자세한 내용은 https://github.com/MiniMax-AI/MiniMax-M1에서 확인할 수 있습니다.