HyperAI초신경
9일 전

MiroMind-M1: 수학적 추론에서의 오픈소스 발전을 위한 맥락 인식 다단계 정책 최적화

Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
MiroMind-M1: 수학적 추론에서의 오픈소스 발전을 위한 맥락 인식 다단계 정책 최적화
초록

최근 대규모 언어 모델은 원활한 텍스트 생성에서 다양한 분야에 걸친 고급 추론으로 진화하여 추론 언어 모델(RLM)이 등장하게 되었다. 이러한 분야 중 수학적 추론은 정확한 다단계 논리와 추상적 사고를 요구하는 대표적인 기준이 되며, 이는 다른 작업으로 일반화될 수 있다. GPT-o3와 같은 닫힌 소스 RLM은 놀랄 만큼 뛰어난 추론 능력을 보여주지만, 상업적 특성으로 인해 투명성과 재현성이 제한된다. 많은 오픈소스 프로젝트가 이 격차를 줄이려고 시도하지만, 대부분의 경우 데이터셋과 세부적인 훈련 설정과 같은 핵심 자원을 누락하여 충분한 투명성을 제공하지 못하고, 이는 재현성을 저해한다. RLM 개발의 투명성을 높이기 위해 우리는 Qwen-2.5 기반의 완전히 오픈소스인 MiroMind-M1 시리즈를 소개한다. 이 모델들은 기존 오픈소스 RLM보다 동등하거나 더 높은 성능을 보인다. 구체적으로, 우리의 모델은 두 단계에 걸쳐 훈련된다: 719,000개의 검증된 계산 과정(CoT) 경로를 가진 수학 추론 문제 코퍼스에서의 SFT(Supervised Fine-Tuning), 그리고 62,000개의 어려운 문제와 검증 가능한 문제에서의 RLVR(Reinforcement Learning with Verified Reward). RLVR 과정의 견고성과 효율성을 향상시키기 위해, 우리는 Context-Aware Multi-Stage Policy Optimization 알고리즘을 도입한다. 이 알고리즘은 길이 진전 훈련과 적응형 반복 패널티(adaptive repetition penalty)를 통합하여, 맥락 인식 기반의 강화 학습 훈련을 장려한다. 우리의 모델은 AIME24, AIME25, MATH 기준에서 Qwen-2.5 기반 오픈소스 7B 및 32B 모델 중 최상위 수준 또는 경쟁력을 갖춘 성능과 우수한 토큰 효율성을 달성하였다. 재현성을 촉진하기 위해 우리는 완전한 스택을 공개한다: 모델(MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B), 데이터셋(MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K), 그리고 모든 훈련 및 평가 설정. 이러한 자원이 향후 연구에 기여하고, 커뮤니티의 발전을 촉진하기를 기대한다.