HyperAIHyperAI
vor 2 Monaten

DeepSeek-Prover-V1.5: Die Nutzung von Beweisassistenten-Feedback für Reinforcement Learning und Monte-Carlo-Baumsuche

Huajian Xin, Z. Z. Ren, Junxiao Song, Zhihong Shao, Wanjia Zhao, Haocheng Wang, Bo Liu, Liyue Zhang, Xuan Lu, Qiushi Du, Wenjun Gao, Qihao Zhu, Dejian Yang, Zhibin Gou, Z. F. Wu, Fuli Luo, Chong Ruan
DeepSeek-Prover-V1.5: Die Nutzung von Beweisassistenten-Feedback für
Reinforcement Learning und Monte-Carlo-Baumsuche
Abstract

Wir stellen DeepSeek-Prover-V1.5 vor, ein quelloffenes Sprachmodell, das für den Beweis von Sätzen in Lean 4 entwickelt wurde und sowohl die Trainings- als auch die Inferenzprozesse von DeepSeek-Prover-V1 optimiert. Das Modell wurde auf DeepSeekMath-Base vorgefertigt und spezialisiert auf formale mathematische Sprachen. Es durchläuft eine überwachte Feinabstimmung unter Verwendung eines verbesserten Datensatzes für formales Satzbeweisen, der aus DeepSeek-Prover-V1 abgeleitet ist. Eine weitere Verbesserung wird durch das Reinforcement Learning from Proof Assistant Feedback (RLPAF) erreicht. Neben dem Einzeldurchgang-Ansatz zur vollständigen Beweiserstellung von DeepSeek-Prover-V1 schlagen wir RMaxTS vor, eine Variante der Monte-Carlo-Baumsuche, die eine intrinsik-belohnungsgetriebene Explorationsstrategie verwendet, um vielfältige Beweiswege zu generieren. DeepSeek-Prover-V1.5 zeigt erhebliche Verbesserungen im Vergleich zu DeepSeek-Prover-V1 und erreicht neue Standartwerte auf dem Testset des Gymnasialniveaus miniF2F-Benchmarks (63,5 %) sowie des Hochschulniveaus ProofNet-Benchmarks (25,3 %).

DeepSeek-Prover-V1.5: Die Nutzung von Beweisassistenten-Feedback für Reinforcement Learning und Monte-Carlo-Baumsuche | Neueste Forschungsarbeiten | HyperAI