초록

대규모 다중모달 추론 모델은 빠른 발전을 이뤘지만, 두 가지 주요한 한계로 인해 발전이 제한되고 있다. 첫째, 개방형이며 대규모이며 고품질의 긴 사고 흐름(Chain-of-Thought, CoT) 데이터의 부재이며, 둘째, 후기 훈련 과정에서 강화학습(Reinforcement Learning, RL) 알고리즘의 불안정성이다. RL 미세조정의 표준 프레임워크인 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 보상 분산이 낮을 경우 기울기 소실(gradient vanishing) 현상에 취약하여 최적화 신호가 약화되고 수렴 성능이 저하된다. 본 연구는 다음과 같은 세 가지 기여를 한다. (1) 보상 분산을 증진시키고 정책 최적화를 안정화하기 위해, 결과 분산과 경로 다양성을 결합한 분산 인식 샘플링(Variance-Aware Sampling, VAS) 기법을 제안한다. 이는 분산 촉진 점수(Variance Promotion Score, VPS)를 기반으로 한 데이터 선택 전략이다. (2) 품질, 난이도, 다양성을 보장하기 위해 설계된 약 160만 개의 긴 CoT 초기 시작 데이터와 약 15,000개의 RL QA 쌍을 포함한 대규모이고 철저히 정제된 자료를 공개한다. 더불어 완전히 재현 가능한 엔드투엔드 훈련 코드베이스도 함께 제공한다. (3) 다양한 규모의 다중모달 추론 모델 세트를 오픈소스로 제공하여 연구 공동체를 위한 표준 기준을 구축한다. 수학적 추론 벤치마크를 대상으로 수행한 실험 결과는 정제된 데이터와 제안된 VAS의 효과성을 입증한다. 포괄적인 아블레이션 연구 및 분석을 통해 각 구성 요소의 기여도에 대한 심층적인 통찰을 제공한다. 또한, 이론적으로 보상 분산이 기대 정책 기울기 크기의 하한을 제공함을 입증하였으며, VAS는 이 보장을 실현하는 실용적 메커니즘으로 기능함을 보였다. 본 연구의 코드, 데이터 및 체크포인트는 https://github.com/LengSicong/MMR1 에서 공개되어 있다.

소스 PDF 코드 보기