OpenMathInstruct-2: 大規模オープンソース指示データを用いた数学AIの加速

数学的推論は、大規模言語モデル(LLM)の開発において依然として重要な課題であり、大きな関心を集めています。しかし、数学的推論における最先端の進歩の多くが、学習データへのアクセス不足により\emph{クローズドソース}となっています。このデータへのアクセス不足は、研究者が異なるデータ合成や利用方法の選択がもたらす影響を理解するのを制限しています。高品質な微調整(SFT)データセットを作成することを目指し、最近公開された\texttt{Llama3.1}ファミリーのモデルを使用してデータ合成に関する慎重なアブレーション実験を行いました。実験結果は以下の通りです:(a) 解答形式が重要であり、冗長すぎる解答はSFT性能に悪影響を及ぼします、(b) 強い教師モデルによって生成されたデータは、同じ量の弱い学生モデルによって生成されたデータよりも優れています、(c) SFTは低品質な解答にも堅牢で、不正確なデータフィルタリングが可能であることが示されました、(d) 問題の多様性がデータスケーリング効果を達成するために不可欠であることが確認されました。これらの洞察に基づいて、1400万件の質問-解答ペア(約60万件のユニークな質問)から構成されるOpenMathInstruct-2データセットを作成しました。これは以前最大のオープンソース数学推論データセットよりもほぼ8倍大きいです。\texttt{Llama-3.1-8B-Base}をOpenMathInstruct-2を使用して微調整すると、MATHでの性能が\texttt{Llama3.1-8B-Instruct}と比較して絶対値で15.9%向上(51.9% → 67.8%)しました。最後に、オープンソースプロジェクトを加速するため、商用利用可能なライセンスのもとでコード、微調整済みモデルおよびOpenMathInstruct-2データセットを公開します。注:「\emph{クローズドソース}」は「closed-source」に対応する日本語表現です。「アブレーション実験」は「ablation experiments」、「微調整」は「finetuning」、「商用利用可能なライセンス」は一般的に「商用利用可能なライセンス」と訳されます。