باحثون من جامعة جياو تونغ شانغهاي يطورونOctoThinker لتحسين توافق نماذج Llama مع تعلم التعزيز
باحثو جامعة جياو تونغ في شنغهاي يقترحون OctoThinker لتطوير نماذج اللغة الكبيرة القابلة للتوسع عبر التعلم التعزيزي مقدمة: تقدم التعلم التعزيزي من خلال توجيه السلاسل الفكرية حققت نماذج اللغة الكبيرة (LLMs) تقدمًا ملحوظًا في مهام التفكير المعقدة من خلال توجيه السلاسل الفكرية (CoT) بالتزامن مع التعلم التعزيزي (RL) على نطاق كبير. أظهرت نماذج مثل Deepseek-R1-Zero قدرات تحليلية قوية بتطبيق RL مباشرة على النماذج الأساسية. كما أظهرت طرق مثل SimpleRL و Open-ReasonerZero تحسينات في نماذج أصغر مثل سلسلة Qwen. ومع ذلك، لا تزال هناك تحديات في تحقيق النجاح عبر مختلف عائلات النماذج الأساسية. بالإضافة إلى ذلك، يواجه تطبيق تدريب R1-Zero على نماذج مثل سلسلة Llama صعوبات، مما يثير تساؤلات أساسية حول العوامل التي تؤدي إلى سلوكيات غير متسقة بين النماذج المختلفة أثناء التعلم التعزيزي. تحديات توسع RL في نماذج Llama تقدم التعلم التعزيزي على نطاق كبير في نماذج مثل o1 و o3 من OpenAI و R1 من DeepSeek في حل المشكلات الرياضية عالية المستوى، مما حفز البحث في تطبيق RL على نماذج أصغر تحتوي على أقل من 100 مليار معلمة. ومع ذلك، فإن هذه التقدمات تقتصر على عائلة نماذج Qwen، بينما يصعب تكرار النتائج على عائلات مثل Llama. نقص الشفافية في خطوط التدريب الأولي جعل فهم كيفية تأثير التدريب الأولي على توسع RL صعبًا. أظهرت الدراسات الغير تقليدية أن التوجيه الواحد (one-shot prompting) يحسن التفكير في Qwen ولكنه لا يقدم فائدة كبيرة في Llama. رغم الجهود المبذولة لجمع كوربوسات رياضية عالية الجودة عبر مشاريع مثل OpenWebMath، MathPile، InfiMM-Web-Math، و FineMath، فإن تقدم هذه المشاريع ما زال محدودًا تحت 100 مليار رمز. استكشاف استراتيجيات التدريب الوسيط باستخدام استراتيجية Stable-then-Decay استكشف باحثو جامعة جياو تونغ في شنغهاي كيف تشكل استراتيجيات التدريب الوسيط الديناميكيات الخاصة بRL، مع التركيز على نماذج Qwen و Llama. قدمت الدراسة عدة رؤى: أولاً، أظهرت البيانات عالية الجودة في الرياضيات، مثل MegaMath-Web-Pro، تحسينات في كلا النماذجين الأساسيين ونتائج RL. ثانياً، استخدام بيانات على شكل أسئلة وأجوبة (QA)، وخاصة تلك التي تتضمن سلاسل تفكير طويلة (CoT)، يعزز نتائج RL بشكل أكبر. ثالثاً، تزيد السلاسل الفكرية الطويلة من الفصاحة وعدم الاستقرار في تدريب RL. رابعاً، تطبيق التوسع أثناء التدريب الوسيط يؤدي إلى أداء أفضل في RL لاحقًا. قدم الباحثون استراتيجية التدريب الوسيط ذات المرحلتين "Stable-then-Decay"، حيث يتم تدريب النماذج الأساسية على 200 مليار رمز، ثم على 20 مليار رمز عبر ثلاث فروع تركز على CoT، مما أدى إلى إنشاء نماذج OctoThinker التي أظهرت توافقًا قويًا مع RL. تكوين RL وتقييم المعايير استخدم الباحثون مجموعة بيانات MATH8K لتوجيه التدريب في RL. يتضمن التكوين حجم دفعة تدريب عالمي قدره 128، و16 ردًا لكل استعلام، وحجم دفعة PPO قدره 64، تم إجراء التجارب على نماذج Llama-3.2-3B-Base و Qwen2.5-3B-Base. للاقتصاص، تم استخدام التوجيه القليل (few-shot prompting) للنماذج الأساسية، والتدرب بدون توجيه (zero-shot) للنماذج المعدلة بـ RL في مهام المعايير، بما في ذلك GSM8K، MATH500، OlympiadBench، و AMC23. خلال تدريب RL، أظهرت نماذج Qwen زيادة في طول الردود تظل معقولة طوال الوقت، بينما أظهرت Llama سلوكًا غير طبيعي، مع زيادة متوسط طول الردود إلى 4,096 رمز. أظهرت النتائج أن Qwen2.5-3B المعدل بـ RL حققت تحسينات في جميع المعايير، بينما أظهرت Llama-3.2-3B تحسينات هامشية فقط. OctoThinker تتفوق في توافق RL أظهر كل فرع من فروع OctoThinker تحسينات بنسبة 10% إلى 20% على النموذج الأساسي الأصلي Llama، وتحسنات مستقرة على النموذج المستقر خلال جميع الأحجام عند تقييمها على 13 معيارًا رياضيًا. أظهرت عائلات OctoThinker-Zero سلوكيات تفكير متنوعة أثناء توسع RL، مع أداء قوي من النموذج OctoThinker-Long. عند مقارنة ثلاثة نماذج بحجم 3 مليار معلمة أثناء تدريب RL، أظهر OctoThinker-Long-3B أداءً أفضل من النموذج الأصلي Llama-3.2-3B ووصل إلى مستوى أداء نموذج Qwen2.5-3B، المعروف بقدراته التحليلية القوية وتدريبه الأولي الشامل. أظهرت الفروع الهجينة والقصيرة أداءً أقل قليلاً، خاصة في المعايير الصعبة. الخاتمة واتجاهات البحث المستقبلية: نحو نماذج أساسية جاهزة للتعلم التعزيزي يستكشف هذا البحث أسباب السلوك المختلف لنماذج مثل Llama و Qwen أثناء تطبيق RL للتفكير، ويظهر أن التدريب الوسيط يلعب دورًا رئيسيًا في قابلية توسع RL. تتحول استراتيجية التدريب الوسيط ذات المرحلتين إلى جعل Llama نموذجًا أساسيًا أكثر ملاءمة للتعلم التعزيزي، مما يؤدي إلى إنشاء نماذج OctoThinker. تشمل اتجاهات البحث المستقبلية فهم آليات التدريب الوسيط بشكل أفضل وكيفية تحسينها، بالإضافة إلى تطوير نماذج أساسية جديدة جاهزة للتعلم التعزيزي. تقييم الحدث من قبل المختصين يعد هذا البحث خطوة مهمة نحو فهم وتحسين قابلية نماذج اللغة الكبيرة للتعلم التعزيزي. يرى العديد من المختصين أن استراتيجية "Stable-then-Decay" يمكن أن تكون أداة قيمة في تطوير نماذج اللغة التي تكون أكثر فعالية في مهام التفكير المعقد. تساهم هذه الدراسة في توسيع نطاق RL ليشمل نماذج مختلفة، مما يفتح الباب أمام تطبيقات جديدة ومبتكرة. نبذة تعريفية عن جامعة جياو تونغ في شنغهاي تعتبر جامعة جياو تونغ في شنغهاي واحدة من أبرز المؤسسات التعليمية والبحثية في الصين. تشتهر الجامعة ببرامجها في الهندسة والعلوم والتكنولوجيا، وهي تساهم بشكل كبير في التطور السريع للبحث العلمي في مجال الذكاء الاصطناعي وتعلم الآلة. يعكس هذا البحث قدرة الجامعة على إجراء دراسات مبتكرة ومتعمقة في تقنيات الذكاء الاصطناعي الحديثة.