DeepSeek-Prover: تقديم إثبات النظريات في نماذج اللغة الطبيعية من خلال البيانات الاصطناعية على نطاق واسع

مساعدات البرهان مثل ليان (Lean) قد غيرت من مفهوم التحقق من البراهين الرياضية، مما يضمن دقة وموثوقية عالية. رغم أن النماذج اللغوية الكبيرة (LLMs) تظهر إمكانات في الاستدلال الرياضي، فإن تقدمها في إثبات المبرهنات الرسمية يعترضه نقص في بيانات التدريب. لمعالجة هذه المشكلة، نقدم نهجًا لإنتاج بيانات برهان واسعة النطاق مستمدة من مشكلات المسابقات الرياضية على مستوى المدارس الثانوية والجامعات. يتضمن هذا النهج تحويل المشكلات اللغوية الطبيعية إلى تصريحات رسمية، فلترة التصريحات ذات الجودة المنخفضة، وإنتاج البراهين لإنشاء بيانات اصطناعية. بعد تعديل نموذج DeepSeekMath 7B على هذاASET البيانات الاصطناعية، التي تتكون من 8 ملايين تصريح رسمي مع البراهين، حقق نموذجنا دقة في إنتاج البرهان الكامل بنسبة 46.3% مع 64 عينة ونسبة 52% بشكل تراكمي على اختبار Lean 4 miniF2F، مما يتجاوز أداء GPT-4 عند نسبة 23.0% مع 64 عينة وأداء طريقة التعلم التعزيزي بالبحث الشجري عند نسبة 41.0%. بالإضافة إلى ذلك، نجح نموذجنا في إثبات 5 من أصل 148 مشكلة في معيار Lean 4 Formalized International Mathematical Olympiad (FIMO)، بينما فشلت GPT-4 في إثبات أي منها. تدل هذه النتائج على إمكانية استغلال البيانات الاصطناعية على نطاق كبير لتعزيز قدرات إثبات المبرهنات في النماذج اللغوية الكبيرة. سيتم جعل كل منASET البيانات الاصطناعية والنموذج متاحين لتسهيل المزيد من البحث في هذا المجال الواعد.请注意,为了保持专业性和准确性,我保留了某些专有名词的英文形式,如 "DeepSeekMath" 和 "miniF2F"。同时,我在一些不常见的术语后面加上了英文标注,例如 "ASET"(数据集)和 "Measuring"(度量)。如果需要进一步调整或有特定的翻译偏好,请告知。