وكيل الاستنتاج طويل المدى لحل المشكلات الرياضية على مستوى أولمبياد الرياضيات
وكيل الاستنتاج طويل المدى لحل المشكلات الرياضية على مستوى أولمبياد الرياضيات

الملخص
لقد حققت النماذج اللغوية الكبيرة (LLMs) تقدماً كبيراً في حل مهام الاستدلال المعقدة من خلال التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR). ولا يمكن فصل هذا التقدم عن الرقابة الآلية التي تُطبَّق بواسطة مُحققين موثوقين. ومع ذلك، فإن المُحققين القائمين على النتائج (OVs) الحاليين غير قادرين على مراجعة الخطوات الوسيطة غير الموثوقة في سلاسل التفكير الطويلة (CoTs). وفي الوقت نفسه، يواجه المُحققون القائمون على العملية (PVs) صعوبات في الكشف الموثوق عن الأخطاء في سلاسل التفكير الطويلة المعقدة، وذلك بسبب ندرة التسميات عالية الجودة الناتجة عن التكاليف الباهظة للتصنيف البشري. ولذلك، نقترح نموذجًا يُسمى "المُحقق القائم على النتيجة والعملية" (OPV)، والذي يقوم بتحقق من عملية التبرير الناتجة عن تلخيص النتائج المستخلصة من سلاسل التفكير الطويلة (CoTs)، بهدف تحقيق التحقق الدقيق والفعال، وتمكين التصنيف على نطاق واسع. ولتمكين هذا المُحقق المقترح، نعتمد إطارًا تفاعليًا للتعلم النشط مع تسميات خبراء، بهدف تحسين تدريجي لقدرة OPV على التحقق، مع تقليل تكاليف التسمية. وبشكل محدد، في كل تكرار، يتم تسمية الحالات الأكثر غموضًا للنموذج OPV الأفضل حاليًا، ثم تُستخدم هذه التسميات لتدريب نموذج OPV جديد من خلال التدريب المُعاد (Rejection Fine-Tuning - RFT) والتعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) للجولة التالية. تُظهر التجارب الواسعة أداءً متميزًا لـ OPV وقابلية تطبيق واسعة. فقد حقق أداءً جديدًا على مستوى الحالة الراهنة (state-of-the-art) على مجموعة بيانات hisbench التي تم حجزها، متفوقًا على نماذج مفتوحة المصدر الأكبر مثل Qwen3-Max-Preview، حيث بلغت دقة F1 83.1 مقابل 76.3. علاوة على ذلك، يتمكن OPV من الكشف الفعّال عن النتائج الإيجابية الكاذبة داخل المجموعات الاصطناعية، مع تقارب وثيق مع تقييم الخبراء. وعند التعاون مع نماذج السياسة (policy models)، يُسهم OPV بشكل متسق في تحسين الأداء، مثلاً، حيث رفع دقة نموذج DeepSeek-R1-Distill-Qwen-32B من 55.2% إلى 73.3% على مجموعة AIME2025 مع تزايد ميزانية الحوسبة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.