Command Palette
Search for a command to run...
s1:単純なテスト時スケーリング
s1:単純なテスト時スケーリング
Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto
概要
テスト時スケーリング(test-time scaling)は、推論時に追加の計算リソースを活用することで言語モデルの性能を向上させる、有望な新アプローチである。近年、OpenAIのo1モデルがこの能力を示したが、その手法は公表されておらず、多くの再現研究が行われている。本研究では、テスト時スケーリングを実現しつつ、強力な推論性能を発揮する最も単純なアプローチの探求を目的とする。まず、妥当性をアブレーション実験によって検証した3つの基準(難易度、多様性、品質)に基づき、1,000問の質問とその推論過程(reasoning traces)を対応付ける小規模データセットs1Kを構築した。次に、予算制御(budget forcing)と呼ばれる手法を提案する。この手法は、モデルが推論を終了しようとする際に「Wait」を複数回付加することで、生成を意図的に延長する、あるいは推論プロセスを強制終了させることで、テスト時の計算量を制御する。これにより、モデルは自身の回答を再確認する傾向が強まり、誤った推論ステップを修正するケースが頻発する。s1KでQwen2.5-32B-Instruct言語モデルを教師あり微調整(supervised fine-tuning)し、さらに予算制御を導入したモデルs1は、競技数学の問題(MATHおよびAIME24)において、o1-previewを最大27%の性能向上で上回った。さらに、予算制御を用いたスケーリングにより、テスト時における人為的な介入なしに、s1の性能を拡張可能であることが示された。AIME24では、50%から57%まで向上した。本研究のモデル、データ、コードはすべてオープンソースであり、https://github.com/simplescaling/s1 にて公開されている。