MiniMax-M1: 라이트닝 어텐션을 활용한 테스트 시간 컴퓨팅 효율성 확장

우리는 세계 최초의 오픈 웨이트, 대규모 하이브리드 어텐션 추론 모델인 MiniMax-M1을 소개합니다. MiniMax-M1은 하이브리드 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처와 라이트닝 어텐션 메커니즘을 결합하여 구동됩니다. 이 모델은 총 4560억 개의 파라미터를 포함하고 있으며, 각 토큰당 45.9억 개의 파라미터가 활성화되는 이전의 MiniMax-Text-01 모델을 기반으로 개발되었습니다. M1 모델은 본래 100만 토큰 길이의 컨텍스트를 지원하며, 이는 DeepSeek R1의 컨텍스트 크기보다 8배 큽니다. 또한, MiniMax-M1의 라이트닝 어텐션 메커니즘은 테스트 시 컴퓨팅 효율성을 크게 향상시킵니다. 이러한 특성들로 인해 M1은 긴 입력 처리와 깊은 사고가 필요한 복잡한 작업에 특히 적합합니다.MiniMax-M1은 샌드박스 기반 및 실제 소프트웨어 공학 환경과 같은 다양한 문제에 대한 대규모 강화 학습(Reinforcement Learning, RL)으로 훈련되었습니다. M1의 RL 훈련에서 내재된 효율성 이점 외에도, 우리는 RL 효율성을 더욱 높이는 새로운 RL 알고리즘인 CISPO를 제안합니다. CISPO는 토큰 업데이트가 아닌 중요도 샘플링 가중치를 클리핑하여 다른 경쟁적인 RL 변형보다 우수한 성능을 보입니다. 하이브리드 어텐션과 CISPO를 결합함으로써 MiniMax-M1은 512개의 H800 GPU에서 전체 RL 훈련을 단 세 주 만에 완료할 수 있었으며, 임대 비용은 단지 534,700달러였습니다.우리는 각각 4만 개와 8만 개의 사고 예산을 갖춘 두 가지 버전의 MiniMax-M1 모델을 출시합니다. 여기서 4만 개 모델은 8만 개 모델 훈련 과정의 중간 단계를 나타냅니다. 표준 벤치마크 실험 결과, 우리의 모델들은 원래 DeepSeek-R1과 Qwen3-235B 등 강력한 오픈 웨이트 모델들과 비교할 때 유사하거나 우월한 성능을 보였으며, 특히 복잡한 소프트웨어 공학, 도구 활용 및 장 컨텍스트 작업에서 강점을 보였습니다. 우리는 MiniMax-M1을 공개적으로 출시하며, 자세한 내용은 https://github.com/MiniMax-AI/MiniMax-M1에서 확인할 수 있습니다.