2ヶ月前
s1: 単純なテスト時のスケーリング
Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto

要約
テスト時のスケーリングは、言語モデルにおいて追加のテスト時計算リソースを使用して性能を向上させる有望な新しいアプローチです。最近、OpenAIのo1モデルがこの能力を示しましたが、その手法を公開しなかったため、多くの再現試みが行われました。私たちは、テスト時のスケーリングと強力な推論性能を達成する最も単純な方法を探求しています。まず、難易度、多様性、品質という3つの基準を検証し、それらに基づいて1,000問の質問と推論トレースをペアにした小さなデータセットs1Kを作成しました。次に、予算強制(budget forcing)を開発し、モデルの思考プロセスを強制的に終了させたり、「待機」(Wait)という文字列を複数回追加することで思考プロセスを延長させることで、テスト時の計算リソースを制御します。これにより、モデルは答えを見直し、しばしば誤った推論ステップを修正することが可能になります。Qwen2.5-32B-Instruct言語モデルをs1K上で監督学習による微調整を行い、予算強制機能を搭載した後、私たちのモデルs1は競技数学問題においてo1-previewを超える性能(最大27%の改善:MATHおよびAIME24)を示しました。さらに、予算強制によってs1の性能をスケーリングすると、テスト時介入なしでの性能を超えて推定することができます:AIME24では50%から57%へと向上しました。私たちのモデル、データセット、コードはオープンソースで提供されており、https://github.com/simplescaling/s1 でアクセスできます。