vor 8 Monaten

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

Zusammenfassung

Die Testzeit-Skalierung ist ein vielversprechender neuer Ansatz im Bereich der Sprachmodelle, der zusätzliche Rechenkapazitäten zur Laufzeit nutzt, um die Leistung zu verbessern. Kürzlich zeigte das Modell o1 von OpenAI diese Fähigkeit, gab aber seine Methodik nicht öffentlich preis, was zu zahlreichen Reproduktionsversuchen führte. Unser Ziel ist es, den einfachsten Ansatz zu finden, um eine Testzeit-Skalierung und starke Schließleistungen zu erzielen. Zunächst erstellen wir einen kleinen Datensatz s1K mit 1.000 Fragen, die jeweils mit Schließprozess-Traces gekoppelt sind. Diese wurden anhand dreier Kriterien ausgewählt, die wir durch Abstraktionen validiert haben: Schwierigkeit, Vielfalt und Qualität. Als Nächstes entwickeln wir Budget-Forcing, um die Rechenkapazität zur Laufzeit zu steuern. Dabei wird der Denkprozess des Modells gezwungen beendet oder durch mehrfaches Anhängen von "Warten" verlängert, wenn das Modell versucht, ihn abzuschließen. Dies kann dazu führen, dass das Modell seine Antwort noch einmal überprüft und häufig falsche Schritte in der Schlussfolgerung korrigiert. Nach dem überwachten Feinjustieren des Sprachmodells Qwen2.5-32B-Instruct anhand von s1K und der Ausstattung mit Budget-Forcing übertreffen unsere Modell s1 das o1-preview-Modell bei Wettbewerbsmathematikaufgaben bis zu 27 % (MATH und AIME24). Darüber hinaus ermöglicht die Skalierung von s1 durch Budget-Forcing eine Extrapolation seiner Leistung ohne Eingriff zur Laufzeit: von 50 % auf 57 % bei AIME24. Unser Modell, Daten und Code sind Open Source unter https://github.com/simplescaling/s1.Anmerkungen:- "Test-time scaling" wurde als "Testzeit-Skalierung" übersetzt.- "Reasoning traces" wurde als "Schließprozess-Traces" übersetzt.- "Ablations" wurde als "Abstraktionen" übersetzt.- "Budget forcing" wurde als "Budget-Forcing" übersetzt.- Die Namen der Modelle (o1, s1) und Datensätze (s1K) wurden unverändert gelassen.- Die URLs wurden ebenfalls unverändert belassen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Überwachtes Feinabstimmen

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Überwachtes Feinabstimmen

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

s1: Einfache Testzeit-Skalierung

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

s1: Einfache Testzeit-Skalierung

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

s1: Einfache Testzeit-Skalierung

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters