
大規模なマルチモーダル推論モデルは急速な進展を遂げてきたが、その発展は2つの主要な制約要因によって阻害されている。第一に、オープンで大規模かつ高品質な長尺の思考過程(long chain-of-thought, CoT)データの不足であり、第二に、事後訓練における強化学習(RL)アルゴリズムの不安定性である。RLファインチューニングの標準枠組みであるグループ相対的方策最適化(Group Relative Policy Optimization, GRPO)は、報酬の分散が低い場合に勾配消失に陥りやすく、最適化信号が弱まり、収束性が損なわれる。本研究は以下の3つの貢献を行う。(1)報酬分散の促進を目的とした、結果の分散と軌道の多様性を統合した「分散認識型サンプリング(Variance-Aware Sampling, VAS)」というデータ選択戦略を提案する。これにより、報酬分散の向上と方策最適化の安定化が実現される。(2)約160万件の長尺CoT初期データと約1万5千件のRLQAペアを含む、品質・難易度・多様性を確保した大規模かつ精心に選別されたリソースを公開する。併せて、完全に再現可能なエンドツーエンドのトレーニングコードベースも提供する。(3)複数スケールのマルチモーダル推論モデルのオープンソースを実施し、コミュニティにおける標準的なベンチマークを確立する。数学的推論ベンチマークにおける実験により、選別されたデータおよび提案するVASの有効性が実証された。包括的なアブレーションスタディおよび分析を通じて、各構成要素の寄与がさらに明らかになった。さらに、理論的に報酬分散が期待される方策勾配の大きさの下限を保証することを示し、VASがこの保証を実現する実用的なメカニズムであることを確立した。本研究のコード、データ、チェックポイントは、https://github.com/LengSicong/MMR1 にて公開されている。