概要

テスト時スケーリング（test-time scaling）は、推論時に追加の計算リソースを活用することで言語モデルの性能を向上させる、有望な新アプローチである。近年、OpenAIのo1モデルがこの能力を示したが、その手法は公表されておらず、多くの再現研究が行われている。本研究では、テスト時スケーリングを実現しつつ、強力な推論性能を発揮する最も単純なアプローチの探求を目的とする。まず、妥当性をアブレーション実験によって検証した3つの基準（難易度、多様性、品質）に基づき、1,000問の質問とその推論過程（reasoning traces）を対応付ける小規模データセットs1Kを構築した。次に、予算制御（budget forcing）と呼ばれる手法を提案する。この手法は、モデルが推論を終了しようとする際に「Wait」を複数回付加することで、生成を意図的に延長する、あるいは推論プロセスを強制終了させることで、テスト時の計算量を制御する。これにより、モデルは自身の回答を再確認する傾向が強まり、誤った推論ステップを修正するケースが頻発する。s1KでQwen2.5-32B-Instruct言語モデルを教師あり微調整（supervised fine-tuning）し、さらに予算制御を導入したモデルs1は、競技数学の問題（MATHおよびAIME24）において、o1-previewを最大27%の性能向上で上回った。さらに、予算制御を用いたスケーリングにより、テスト時における人為的な介入なしに、s1の性能を拡張可能であることが示された。AIME24では、50%から57%まで向上した。本研究のモデル、データ、コードはすべてオープンソースであり、https://github.com/simplescaling/s1 にて公開されている。

ソースPDF