منذ 4 ساعات

الملخص

نقدم في هذا البحث ThinkTwice، وهو إطار عمل (framework) بسيط يتكون من مرحلتين، يقوم بتحسين الـ LLMs بشكل مشترك لحل مشكلات الاستدلال (reasoning) وتحسين الإجابات (refinement)، وذلك بالاعتماد على تقنية تحسين السياسة النسبي الجماعي (Group Relative Policy Optimization - GRPO). في كل زوج من خطوات التدريب، يعمل ThinkTwice أولاً على تحسين النموذج في حل مشكلات الاستدلال، ثم يقوم بتحسين قدرته على تنقيح حلوله الخاصة لنفس المشكلات. تُستخدم في كلتا المرحلتين نفس مكافأة الصحة الثنائية (binary correctness reward) دون الحاجة إلى إشارات صحة (correctness signals) أو تعليقات نقدية (critique annotations). ومن خلال الاختبار على خمسة معايير مرجعية (benchmarks) للاستدلال الرياضي وعائلتين من النماذج تشمل Qwen3-4B و Olmo3-7B، أظهر ThinkTwice تحسناً جوهرياً في كل من أداء الاستدلال والتحسين مقارنة بالنماذج المرجعية المنافسة في تحسين السياسة عبر الإنترنت (online policy optimization baselines). وتحديداً، على نموذج Qwen3-4B، تفوق ThinkTwice على GRPO في اختبار AIME بنسبة 5 نقاط مئوية قبل عملية الـ refinement، وبمقدار 11.5 نقطة بعد خطوة واحدة من الـ self-refinement، وذلك وفقاً لمقياس pass@4.يكشف تحليل ديناميكيات التدريب في ThinkTwice عن منهج تعليمي ضمني يعتمد على "التصحيح ثم التعزيز" (rectify-then-fortify curriculum)؛ حيث يركز الـ refinement بشكل أساسي على تصحيح الأخطاء في المراحل المبكرة من التدريب، ثم ينتقل بشكل طبيعي نحو الحفاظ على الحلول الصحيحة بالفعل مع تحسن أداء النموذج، مما يؤدي إلى إشارة مكافأة (reward signal) أكثر دقة وتصحيحاً. يرسخ عملنا التدريب المشترك للاستدلال والـ self-refinement كمنهجية مبدئية وفعالة لتعزيز التعلم التعزيزي من التغذية الراجعة للتحقق (Reinforcement Learning from Verifiable Rewards - RLVR).

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار