OPV: مُحقِّق عملية مبني على النتيجة لتحقق فعّال من سلسلة طويلة من التفكير
OPV: مُحقِّق عملية مبني على النتيجة لتحقق فعّال من سلسلة طويلة من التفكير

الملخص
لقد حققت النماذج اللغوية الكبيرة (LLMs) تقدماً كبيراً في حل مهام الاستدلال المعقدة من خلال التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR). ولا يمكن فصل هذا التقدم عن الرقابة الآلية التي تُمارسها مُتحققات موثوقة. ومع ذلك، فإن المُتحققات القائمة على النتائج (OVs) الحالية غير قادرة على مراجعة الخطوات الوسيطة غير الموثوقة في سلاسل التفكير الطويلة (CoTs). وفي الوقت نفسه، تواجه المُتحققات القائمة على العملية (PVs) صعوبات في الكشف الموثوق عن الأخطاء في سلاسل التفكير الطويلة المعقدة، وذلك بسبب ندرة التسميات عالية الجودة الناتجة عن التكاليف الباهظة للتصنيف البشري. ولذلك، نقترح مُتحققًا قائمًا على النتيجة والعملية (OPV)، والذي يقوم بتحقق من عملية التبرير الناتجة عن تلخيص النتائج المستخلصة من سلاسل التفكير الطويلة (CoTs)، بهدف تحقيق التحقق الدقيق والفعال، وتمكين التصنيف على نطاق واسع. ولتمكين المُتحقق المقترح، نعتمد إطارًا تفاعليًا للتعلم النشط مع تسميات خبراء، بهدف تحسين قدرة OPV بشكل تدريجي وبتكاليف تسمية أقل. وبشكل محدد، في كل تكرار، يتم تسمية الحالات الأكثر غموضًا للنموذج OPV الأفضل حاليًا، ثم تُستخدم هذه التسميات لتدريب نموذج OPV جديد من خلال التدريب المُعاد (Rejection Fine-Tuning - RFT) والتعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) للجولة التالية. تُظهر التجارب الواسعة أداءً متميزًا لـ OPV وقابلية تطبيق واسعة. فقد حقق أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art) على مجموعتنا المُحفوظة OPV-Bench، حيث تفوق نماذج مفتوحة المصدر الأكبر مثل Qwen3-Max-Preview، بتحقيقه مؤشر F1 قدره 83.1 مقابل 76.3. علاوة على ذلك، يتمكن OPV من كشف الإيجابيات الكاذبة بكفاءة داخل مجموعات بيانات مُصطنعة، مع توافق وثيق مع تقييم الخبراء. وعند التعاون مع نماذج السياسة (policy models)، يُظهر OPV تحسينات مستمرة في الأداء، مثل رفع دقة نموذج DeepSeek-R1-Distill-Qwen-32B من 55.2% إلى 73.3% على مجموعة AIME2025 مع زيادة حجم الموارد الحسابية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.