s1: Einfache Testzeit-Skalierung

Die Testzeit-Skalierung ist ein vielversprechender neuer Ansatz im Bereich der Sprachmodelle, der zusätzliche Rechenkapazitäten zur Laufzeit nutzt, um die Leistung zu verbessern. Kürzlich zeigte das Modell o1 von OpenAI diese Fähigkeit, gab aber seine Methodik nicht öffentlich preis, was zu zahlreichen Reproduktionsversuchen führte. Unser Ziel ist es, den einfachsten Ansatz zu finden, um eine Testzeit-Skalierung und starke Schließleistungen zu erzielen. Zunächst erstellen wir einen kleinen Datensatz s1K mit 1.000 Fragen, die jeweils mit Schließprozess-Traces gekoppelt sind. Diese wurden anhand dreier Kriterien ausgewählt, die wir durch Abstraktionen validiert haben: Schwierigkeit, Vielfalt und Qualität. Als Nächstes entwickeln wir Budget-Forcing, um die Rechenkapazität zur Laufzeit zu steuern. Dabei wird der Denkprozess des Modells gezwungen beendet oder durch mehrfaches Anhängen von "Warten" verlängert, wenn das Modell versucht, ihn abzuschließen. Dies kann dazu führen, dass das Modell seine Antwort noch einmal überprüft und häufig falsche Schritte in der Schlussfolgerung korrigiert. Nach dem überwachten Feinjustieren des Sprachmodells Qwen2.5-32B-Instruct anhand von s1K und der Ausstattung mit Budget-Forcing übertreffen unsere Modell s1 das o1-preview-Modell bei Wettbewerbsmathematikaufgaben bis zu 27 % (MATH und AIME24). Darüber hinaus ermöglicht die Skalierung von s1 durch Budget-Forcing eine Extrapolation seiner Leistung ohne Eingriff zur Laufzeit: von 50 % auf 57 % bei AIME24. Unser Modell, Daten und Code sind Open Source unter https://github.com/simplescaling/s1.Anmerkungen:- "Test-time scaling" wurde als "Testzeit-Skalierung" übersetzt.- "Reasoning traces" wurde als "Schließprozess-Traces" übersetzt.- "Ablations" wurde als "Abstraktionen" übersetzt.- "Budget forcing" wurde als "Budget-Forcing" übersetzt.- Die Namen der Modelle (o1, s1) und Datensätze (s1K) wurden unverändert gelassen.- Die URLs wurden ebenfalls unverändert belassen.