HyperAIHyperAI

Command Palette

Search for a command to run...

vor 14 Stunden

DeepSeekMath-V2: Hin zu selbstverifizierendem mathematischem Schlussfolgern

Zhihong Shao Yuxiang Luo Chengda Lu Z.Z. Ren Jiewen Hu Tian Ye Zhibin Gou Shirong Ma Xiaokang Zhang

DeepSeekMath-V2: Hin zu selbstverifizierendem mathematischem Schlussfolgern

Abstract

Große Sprachmodelle haben erhebliche Fortschritte bei der mathematischen Schlussfolgerung erzielt, was als wichtiger Testfall für Künstliche Intelligenz gilt und bei weiterer Entwicklung möglicherweise wissenschaftliche Forschung beeinflussen könnte. Durch die Skalierung des Schlussfolgerungsvermögens mittels Verstärkungslernen, das korrekte Endantworten belohnt, konnten Sprachmodelle innerhalb eines Jahres von einer schlechten Leistung auf ein Niveau steigern, das quantitative Schlussfolgerungswettbewerbe wie AIME und HMMT saturiert. Dieser Ansatz stößt jedoch auf fundamentale Grenzen: Die Verbesserung der Genauigkeit der Endantworten löst nicht das zentrale Problem, dass korrekte Antworten keine korrekte Schlussfolgerung garantieren. Zudem erfordern viele mathematische Aufgaben, wie etwa der Beweis von Sätzen, eine strenge schrittweise Ableitung statt einer numerischen Antwort, weshalb Belohnungen basierend auf Endantworten unzweckmäßig sind. Um die Grenzen tiefer Schlussfolgerung zu erweitern, halten wir es für notwendig, die Vollständigkeit und Strenge mathematischer Schlussfolgerungen zu überprüfen. Selbstverifikation ist dabei besonders wichtig, wenn die Rechenleistung zur Testzeit skaliert wird, insbesondere bei offenen Problemen ohne bekannte Lösungen. In Richtung selbstverifizierbarer mathematischer Schlussfolgerung untersuchen wir, wie man ein genaues und zuverlässiges Sprachmodell-basiertes Verifikationswerkzeug für Beweisführung trainieren kann. Anschließend verwenden wir dieses Verifikationswerkzeug als Belohnungsmodell, um einen Beweisgenerator zu trainieren und diesen dazu zu motivieren, möglichst viele Schwächen in eigenen Beweisen zu erkennen und zu beheben, bevor diese endgültig festgelegt werden. Um den Abstand zwischen Generierung und Verifikation beizubehalten, während der Generator stärker wird, schlagen wir vor, die Verifikationsrechenleistung zu skalieren, um neue, schwer zu verifizierende Beweise automatisch zu kennzeichnen und so Trainingsdaten zu erzeugen, die die Weiterentwicklung des Verifikationswerkzeugs ermöglichen. Unser resultierendes Modell, DeepSeekMath-V2, zeigt starke Fähigkeiten im Beweis von Sätzen und erreicht Gold-Niveau bei der IMO 2025 und der CMO 2024 sowie eine fast perfekte Punktzahl von 118/120 bei der Putnam 2024 unter Nutzung skaliert verfügbarer Testzeit-Rechenleistung. Obwohl noch viel Forschungsarbeit erforderlich ist, deuten diese Ergebnisse darauf hin, dass selbstverifizierbare mathematische Schlussfolgerung ein tragfähiger Forschungsansatz ist, der zur Entwicklung leistungsfähigerer mathematischer KI-Systeme beitragen könnte.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp