MiroMind-M1: 수학적 추론에서의 오픈소스 발전을 위한 맥락 인식 다단계 정책 최적화

최근 대규모 언어 모델은 원활한 텍스트 생성에서 다양한 분야에 걸친 고급 추론으로 진화하여 추론 언어 모델(RLM)이 등장하게 되었다. 이러한 분야 중 수학적 추론은 정확한 다단계 논리와 추상적 사고를 요구하는 대표적인 기준이 되며, 이는 다른 작업으로 일반화될 수 있다. GPT-o3와 같은 닫힌 소스 RLM은 놀랄 만큼 뛰어난 추론 능력을 보여주지만, 상업적 특성으로 인해 투명성과 재현성이 제한된다. 많은 오픈소스 프로젝트가 이 격차를 줄이려고 시도하지만, 대부분의 경우 데이터셋과 세부적인 훈련 설정과 같은 핵심 자원을 누락하여 충분한 투명성을 제공하지 못하고, 이는 재현성을 저해한다. RLM 개발의 투명성을 높이기 위해 우리는 Qwen-2.5 기반의 완전히 오픈소스인 MiroMind-M1 시리즈를 소개한다. 이 모델들은 기존 오픈소스 RLM보다 동등하거나 더 높은 성능을 보인다. 구체적으로, 우리의 모델은 두 단계에 걸쳐 훈련된다: 719,000개의 검증된 계산 과정(CoT) 경로를 가진 수학 추론 문제 코퍼스에서의 SFT(Supervised Fine-Tuning), 그리고 62,000개의 어려운 문제와 검증 가능한 문제에서의 RLVR(Reinforcement Learning with Verified Reward). RLVR 과정의 견고성과 효율성을 향상시키기 위해, 우리는 Context-Aware Multi-Stage Policy Optimization 알고리즘을 도입한다. 이 알고리즘은 길이 진전 훈련과 적응형 반복 패널티(adaptive repetition penalty)를 통합하여, 맥락 인식 기반의 강화 학습 훈련을 장려한다. 우리의 모델은 AIME24, AIME25, MATH 기준에서 Qwen-2.5 기반 오픈소스 7B 및 32B 모델 중 최상위 수준 또는 경쟁력을 갖춘 성능과 우수한 토큰 효율성을 달성하였다. 재현성을 촉진하기 위해 우리는 완전한 스택을 공개한다: 모델(MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B), 데이터셋(MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K), 그리고 모든 훈련 및 평가 설정. 이러한 자원이 향후 연구에 기여하고, 커뮤니티의 발전을 촉진하기를 기대한다.