الملخص

لقد حققت النماذج اللغوية الكبيرة (LLMs) تقدماً كبيراً في حل مهام الاستدلال المعقدة من خلال التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR). ولا يمكن فصل هذا التقدم عن الرقابة الآلية التي تُمارسها مُتحققات موثوقة. ومع ذلك، فإن المُتحققات القائمة على النتائج (OVs) الحالية غير قادرة على مراجعة الخطوات الوسيطة غير الموثوقة في سلاسل التفكير الطويلة (CoTs). وفي الوقت نفسه، تواجه المُتحققات القائمة على العملية (PVs) صعوبات في الكشف الموثوق عن الأخطاء في سلاسل التفكير الطويلة المعقدة، وذلك بسبب ندرة التسميات عالية الجودة الناتجة عن التكاليف الباهظة للتصنيف البشري. ولذلك، نقترح مُتحققًا قائمًا على النتيجة والعملية (OPV)، والذي يقوم بتحقق من عملية التبرير الناتجة عن تلخيص النتائج المستخلصة من سلاسل التفكير الطويلة (CoTs)، بهدف تحقيق التحقق الدقيق والفعال، وتمكين التصنيف على نطاق واسع. ولتمكين المُتحقق المقترح، نعتمد إطارًا تفاعليًا للتعلم النشط مع تسميات خبراء، بهدف تحسين قدرة OPV بشكل تدريجي وبتكاليف تسمية أقل. وبشكل محدد، في كل تكرار، يتم تسمية الحالات الأكثر غموضًا للنموذج OPV الأفضل حاليًا، ثم تُستخدم هذه التسميات لتدريب نموذج OPV جديد من خلال التدريب المُعاد (Rejection Fine-Tuning - RFT) والتعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) للجولة التالية. تُظهر التجارب الواسعة أداءً متميزًا لـ OPV وقابلية تطبيق واسعة. فقد حقق أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art) على مجموعتنا المُحفوظة OPV-Bench، حيث تفوق نماذج مفتوحة المصدر الأكبر مثل Qwen3-Max-Preview، بتحقيقه مؤشر F1 قدره 83.1 مقابل 76.3. علاوة على ذلك، يتمكن OPV من كشف الإيجابيات الكاذبة بكفاءة داخل مجموعات بيانات مُصطنعة، مع توافق وثيق مع تقييم الخبراء. وعند التعاون مع نماذج السياسة (policy models)، يُظهر OPV تحسينات مستمرة في الأداء، مثل رفع دقة نموذج DeepSeek-R1-Distill-Qwen-32B من 55.2% إلى 73.3% على مجموعة AIME2025 مع زيادة حجم الموارد الحسابية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

OPV: مُحقِّق عملية مبني على النتيجة لتحقق فعّال من سلسلة طويلة من التفكير

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OPV: مُحقِّق عملية مبني على النتيجة لتحقق فعّال من سلسلة طويلة من التفكير

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OPV: مُحقِّق عملية مبني على النتيجة لتحقق فعّال من سلسلة طويلة من التفكير

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma