HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

DRIVE: أفضل الممارسات لتنظيف البيانات للتعلم القوي مع مكافأة قابلة للتحقق في توليد الشفرة التنافسية

Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

DRIVE: أفضل الممارسات لتنظيف البيانات للتعلم القوي مع مكافأة قابلة للتحقق في توليد الشفرة التنافسية

الملخص

لقد أعادت النماذج الحديثة التي تُركّز على التفكير (مثل OpenAI o1 وDeepSeek R1) تنشيط الاهتمام بـ RLVR. ومع ذلك، تُسجّل التقدّم المُحرَز في هذا المجال تفوّقًا في مجال الرياضيات (مثل AIME)، بينما ما زال توليد الشيفرة في المسابقات البرمجية غير مُستكشَفٍ بشكل كافٍ، كما يُلقى اهتمام أقل بتحصيل البيانات مقارنةً بتصميم خوارزميات RL. نستعرض في هذا العمل كيفية بناء مجموعات بيانات RLVR (أي محفّزات RL) ونقدّم تقنيات تدريب عملية تُحقّق أداءً متميزًا في توليد الشيفرة للمسابقات البرمجية. يبدأ نهجنا بتحسين مُراقب (SFT) مُستخلص من نماذج مفتوحة المصدر قوية، مُعزّز ببيانات عامة وبيانات تُركّز على التفكير. ثم يلي ذلك مرحلة RL بخطوتين: تُقدّم مكافآت قابلة للتنفيذ وتعتمد على اختبارات الأداء. أولاً، تدريب على مجموعة واسعة وموزّعة بشكل متجانس من مسائل المسابقات البرمجية باستخدام خوارزمية تحسين السياسة النسبية المجموعة (GRPO) مع 8 محاكاة لكل محفّز ونافذة توليد إجابة قصيرة نسبيًا (مثلاً 32K خلال SFT و24K في هذه المرحلة)، بهدف توسيع الانتروبيا وتقليل التكرار والقطع. ثانيًا، نُطبّق ما يُسمّى بـ "Pre-GRPO": تحديث النموذج على مجموعة صغيرة ولكن عالية الجودة من المسائل الصعبة، باستخدام ميزانية محاكاة كبيرة (64 محاكاة لكل محفّز) ضمن منهجية تدريب مركّزة (hard-focus curriculum) تُبقي باستمرار على أصعب الأمثلة طوال فترة التدريب. نُطبّق منهجنا على نموذج Qwen2.5-32B ونُقيّم أداؤه في مسابقات LeetCode وCodeforces الأسبوعية لتفادي تسرب البيانات. يُحقّق النموذج الناتج أداءً مُتفوّقًا على النماذج ذات الحجم المماثل، وينافس الأنظمة الرائدة مثل DeepSeek v3.1 وDoubao-1.5-Thinking. كما نُحلّل اتجاهات التوسع (scaling trends) ونلاحظ تأثيرًا قويًا لتوسع RL في نموذج داخلي كبير مبني على معمارية MoE. تُلخّص دراستنا ممارسات مُثلى موجزة في تحسين تجميع البيانات، وتوسيع الانتروبيا، وتصميم المناهج التدريبية في سياق RLVR لتمكين توليد الشيفرة في المسابقات البرمجية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DRIVE: أفضل الممارسات لتنظيف البيانات للتعلم القوي مع مكافأة قابلة للتحقق في توليد الشفرة التنافسية | الأوراق البحثية | HyperAI