Command Palette
Search for a command to run...
ThinkTwice: تحسين Large Language Models بشكل مشترك من أجل Reasoning و Self-Refinement
ThinkTwice: تحسين Large Language Models بشكل مشترك من أجل Reasoning و Self-Refinement
Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson
الملخص
نقدم في هذا البحث ThinkTwice، وهو إطار عمل (framework) بسيط يتكون من مرحلتين، يقوم بتحسين الـ LLMs بشكل مشترك لحل مشكلات الاستدلال (reasoning) وتحسين الإجابات (refinement)، وذلك بالاعتماد على تقنية تحسين السياسة النسبي الجماعي (Group Relative Policy Optimization - GRPO). في كل زوج من خطوات التدريب، يعمل ThinkTwice أولاً على تحسين النموذج في حل مشكلات الاستدلال، ثم يقوم بتحسين قدرته على تنقيح حلوله الخاصة لنفس المشكلات. تُستخدم في كلتا المرحلتين نفس مكافأة الصحة الثنائية (binary correctness reward) دون الحاجة إلى إشارات صحة (correctness signals) أو تعليقات نقدية (critique annotations). ومن خلال الاختبار على خمسة معايير مرجعية (benchmarks) للاستدلال الرياضي وعائلتين من النماذج تشمل Qwen3-4B و Olmo3-7B، أظهر ThinkTwice تحسناً جوهرياً في كل من أداء الاستدلال والتحسين مقارنة بالنماذج المرجعية المنافسة في تحسين السياسة عبر الإنترنت (online policy optimization baselines). وتحديداً، على نموذج Qwen3-4B، تفوق ThinkTwice على GRPO في اختبار AIME بنسبة 5 نقاط مئوية قبل عملية الـ refinement، وبمقدار 11.5 نقطة بعد خطوة واحدة من الـ self-refinement، وذلك وفقاً لمقياس pass@4.يكشف تحليل ديناميكيات التدريب في ThinkTwice عن منهج تعليمي ضمني يعتمد على "التصحيح ثم التعزيز" (rectify-then-fortify curriculum)؛ حيث يركز الـ refinement بشكل أساسي على تصحيح الأخطاء في المراحل المبكرة من التدريب، ثم ينتقل بشكل طبيعي نحو الحفاظ على الحلول الصحيحة بالفعل مع تحسن أداء النموذج، مما يؤدي إلى إشارة مكافأة (reward signal) أكثر دقة وتصحيحاً. يرسخ عملنا التدريب المشترك للاستدلال والـ self-refinement كمنهجية مبدئية وفعالة لتعزيز التعلم التعزيزي من التغذية الراجعة للتحقق (Reinforcement Learning from Verifiable Rewards - RLVR).