vor 6 Monaten

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma

Zusammenfassung

LLMs haben durch die Nutzung von Verstärkungslernen mit langen Gedankengängen starke mathematische Schlussfolgerungsfähigkeiten demonstriert. Dennoch bleiben sie bei der Beweisführung von Sätzen weiterhin herausgefordert, da reine natürliche Sprache keine klaren Überwachungssignale liefert. Spezialisierte, domain-spezifische Sprachen wie Lean bieten hingegen klare Überwachungssignale durch die formale Verifikation von Beweisen, was eine effektive Ausbildung mittels Verstärkungslernen ermöglicht. In dieser Arbeit präsentieren wir Seed-Prover, ein modulares Beweis-Modell im Stil von Lemmata, das seine Beweisführung iterativ anhand von Lean-Rückmeldungen, bereits bewiesenen Lemmata sowie selbstgenerierter Zusammenfassungen verfeinert. Um Aufgaben der Schwierigkeitsstufe der Internationalen Mathematikolympiade (IMO) zu lösen, entwickeln wir drei Strategien für die Inferenz zur Testzeit, die sowohl tiefe als auch breite Schlussfolgerung ermöglichen. Seed-Prover beweist 78,1 % der formalisierten vergangenen IMO-Aufgaben, erreicht die Sättigung von MiniF2F und erzielt über 50 % auf PutnamBench – dies deutlich besser als der bisherige Stand der Technik. Um die begrenzte Unterstützung geometrischer Beweisführung in Lean zu überwinden, führen wir einen geometrischen Schlussfolgerungs-Engine namens Seed-Geometry ein, der die Leistung bisheriger formaler geometrischer Engines übertrifft. Mit diesen beiden Systemen nehmen wir an der IMO 2025 teil und beweisen fünf von sechs Aufgaben vollständig. Diese Arbeit stellt einen bedeutenden Fortschritt im Bereich der automatisierten mathematischen Schlussfolgerung dar und belegt die Wirksamkeit der formalen Verifikation in Kombination mit langen Gedankengängen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Seed-Prover: Tiefes und umfassendes Schließen für die automatisierte Beweisführung von Sätzen

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma26 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Seed-Prover: Tiefes und umfassendes Schließen für die automatisierte Beweisführung von Sätzen

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma26 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Seed-Prover: Tiefes und umfassendes Schließen für die automatisierte Beweisführung von Sätzen

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma26 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma

Luoxin Chen Jinming Gu Liankai Huang Wenhao Huang Zhicheng Jiang Allan Jie Xiaoran Jin Xing Jin Chenggang Li Kaijing Ma