Command Palette
Search for a command to run...
وكيل الاستدلال بفترة طويلة لحل المشكلات الرياضية على مستوى الأولمبياد
وكيل الاستدلال بفترة طويلة لحل المشكلات الرياضية على مستوى الأولمبياد
الملخص
أحرزت النماذج اللغوية الكبيرة (LLMs) تقدماً كبيراً في حل مهام الاستدلال المعقدة من خلال التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR). ولا يمكن فصل هذا التقدم عن الرقابة الآلية التي تُطبَّق بواسطة مُحققين موثوقين. ومع ذلك، فإن المُحققين القائمين على النتائج (OVs) الحاليين غير قادرين على مراجعة الخطوات الوسيطة غير الموثوقة في سلاسل التفكير الطويلة (CoTs). وفي الوقت نفسه، يواجه المُحققون القائمون على العملية (PVs) صعوبات في الكشف الموثوق عن الأخطاء في سلاسل التفكير الطويلة المعقدة، وذلك بسبب ندرة التسميات عالية الجودة الناتجة عن التكاليف الباهظة للتصنيف البشري. ولذلك، نقترح نموذجًا يُسمى "المُحقق القائم على النتيجة والعملية" (OPV)، والذي يقوم بتحقق من عملية التبرير المستخلصة من النتائج الموجزة لسلاسل التفكير الطويلة (CoTs)، بهدف تحقيق التحقق الدقيق والفعال، وتمكين التصنيف على نطاق واسع. ولتمكين هذا المُحقق المقترح، نعتمد إطاراً تفاعلياً للتعلم النشط مع تسميات خبراء، بهدف تحسين تدريجي لقدرة OPV على التحقق، مع تقليل تكاليف التسمية. وبشكل محدد، في كل تكرار، يتم تسمية الحالات الأكثر غموضاً من أفضل نموذج OPV الحالي، ثم تُستخدم هذه التسميات لتدريب نموذج OPV جديد من خلال التدريب المُعاد (RFT) والتعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) للجولة التالية. تُظهر التجارب الواسعة أداءً متفوقاً لـ OPV وقابلية تطبيق واسعة. فقد حقق أداءً قياسياً جديداً على مجموعة بيانات hisbench التي تم الاحتفاظ بها، متفوقاً على نماذج مفتوحة المصدر الأكبر مثل Qwen3-Max-Preview، حيث بلغت دقة F1 83.1 مقابل 76.3. علاوة على ذلك، يتمكن OPV من كشف الإيجابيات الكاذبة بكفاءة داخل مجموعات البيانات الاصطناعية، مع تطابق وثيق مع تقييم الخبراء. وعند التعاون مع نماذج السياسة، يُظهر OPV تحسينات مستمرة في الأداء، مثلاً، رفع دقة نموذج DeepSeek-R1-Distill-Qwen-32B من 55.2% إلى 73.3% على AIME2025 مع زيادة حجم الموارد الحسابية.