HyperAIHyperAI

Command Palette

Search for a command to run...

ThinkTwice: تحسين Large Language Models بشكل مشترك من أجل Reasoning و Self-Refinement

Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson

الملخص

نقدم في هذا البحث ThinkTwice، وهو إطار عمل (framework) بسيط يتكون من مرحلتين، يقوم بتحسين الـ LLMs بشكل مشترك لحل مشكلات الاستدلال (reasoning) وتحسين الإجابات (refinement)، وذلك بالاعتماد على تقنية تحسين السياسة النسبي الجماعي (Group Relative Policy Optimization - GRPO). في كل زوج من خطوات التدريب، يعمل ThinkTwice أولاً على تحسين النموذج في حل مشكلات الاستدلال، ثم يقوم بتحسين قدرته على تنقيح حلوله الخاصة لنفس المشكلات. تُستخدم في كلتا المرحلتين نفس مكافأة الصحة الثنائية (binary correctness reward) دون الحاجة إلى إشارات صحة (correctness signals) أو تعليقات نقدية (critique annotations). ومن خلال الاختبار على خمسة معايير مرجعية (benchmarks) للاستدلال الرياضي وعائلتين من النماذج تشمل Qwen3-4B و Olmo3-7B، أظهر ThinkTwice تحسناً جوهرياً في كل من أداء الاستدلال والتحسين مقارنة بالنماذج المرجعية المنافسة في تحسين السياسة عبر الإنترنت (online policy optimization baselines). وتحديداً، على نموذج Qwen3-4B، تفوق ThinkTwice على GRPO في اختبار AIME بنسبة 5 نقاط مئوية قبل عملية الـ refinement، وبمقدار 11.5 نقطة بعد خطوة واحدة من الـ self-refinement، وذلك وفقاً لمقياس pass@4.يكشف تحليل ديناميكيات التدريب في ThinkTwice عن منهج تعليمي ضمني يعتمد على "التصحيح ثم التعزيز" (rectify-then-fortify curriculum)؛ حيث يركز الـ refinement بشكل أساسي على تصحيح الأخطاء في المراحل المبكرة من التدريب، ثم ينتقل بشكل طبيعي نحو الحفاظ على الحلول الصحيحة بالفعل مع تحسن أداء النموذج، مما يؤدي إلى إشارة مكافأة (reward signal) أكثر دقة وتصحيحاً. يرسخ عملنا التدريب المشترك للاستدلال والـ self-refinement كمنهجية مبدئية وفعالة لتعزيز التعلم التعزيزي من التغذية الراجعة للتحقق (Reinforcement Learning from Verifiable Rewards - RLVR).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp