HyperAI
منذ 14 ساعات

Seed-Prover: استنتاج عميق وشامل للبرهان الآلي على النظريات

Luoxin Chen, Jinming Gu, Liankai Huang, Wenhao Huang, Zhicheng Jiang, Allan Jie, Xiaoran Jin, Xing Jin, Chenggang Li, Kaijing Ma, Cheng Ren, Jiawei Shen, Wenlei Shi, Tong Sun, He Sun, Jiahui Wang, Siran Wang, Zhihong Wang, Chenrui Wei, Shufa Wei, Yonghui Wu, Yuchen Wu, Yihang Xia, Huajian Xin, Fan Yang, Huaiyuan Ying, Hongyi Yuan, Zheng Yuan, Tianyang Zhan, Chi Zhang, Yue Zhang, Ge Zhang, Tianyun Zhao, Jianqiu Zhao, Yichi Zhou, Thomas Hanwen Zhu
Seed-Prover: استنتاج عميق وشامل للبرهان الآلي على النظريات
الملخص

أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات قوية في التفكير الرياضي من خلال الاستفادة من التعلم المعزز مع سلسلة طويلة من التفكير (long chain-of-thought)، ومع ذلك تظل تواجه صعوبات في إثبات النظريات بسبب غياب إشارات إشراف واضحة عند الاعتماد فقط على اللغة الطبيعية. تقدم اللغات المحددة للمجالات مثل Lean إشارات إشراف واضحة من خلال التحقق الرمزي من الأدلة، مما يمكّن من التدريب الفعّال باستخدام التعلم المعزز. في هذه الدراسة، نقترح نموذج Seed-Prover، وهو نموذج يعتمد على نمط البرهان الكامل بأسلوب المبرهنة (lemma-style). يتمكن Seed-Prover من تحسين إثباته بشكل تكراري بناءً على ملاحظات Lean، والنتائج المثبتة سابقًا، والتلخيص الذاتي. ولحل المشكلات التي تُطرح في المسابقات من مستوى IMO، قمنا بتصميم ثلاث استراتيجيات للاستنتاج أثناء الاختبار، تتيح التفكير العميق والواسع في آنٍ واحد. وقد تمكّن Seed-Prover من إثبات 78.1٪ من مسائل IMO الرسمية السابقة، وحقق تعبئة كاملة (saturate) لاختبار MiniF2F، وحقق أكثر من 50٪ في PutnamBench، متفوّقًا بفارق كبير على أحدث النماذج السابقة. وللتغلب على نقص الدعم الهندسي في Lean، قمنا بتطوير محرك استدلال هندسي جديد يُدعى Seed-Geometry، والذي يتفوّق على المحركات الرمزية السابقة في الهندسة. استخدمنا النظامين معًا في مسابقة IMO 2025، وتمكّنا من إثبات جميع المسائل الستة باستثناء واحدة فقط. تمثل هذه الدراسة تقدّمًا كبيرًا في مجال الاستدلال الرياضي الآلي، وتوحي بفعالية استخدام التحقق الرمزي مع التفكير الطويل المتسلسل (long chain-of-thought).