Command Palette
Search for a command to run...
OctoThinker: التحفيز خلال التدريب يشجع توسيع تعلم التعزيز
Zengzhi Wang Fan Zhou Xuefeng Li Pengfei Liu

الملخص
تظهر عائلات نماذج اللغات الأساسية المختلفة، مثل Llama و Qwen، سلوكيات متباعدة أثناء التدريب اللاحق باستخدام التعلم التعزيزي (RL)، خاصة في المهام التي تتطلب تفكيرًا كثيفًا. ما الذي يجعل نموذج اللغة الأساسي مناسبًا للتعلم التعزيزي؟ من الضروري الحصول على فهم أعمق لهذا السؤال لتطوير نماذج أساسية قابلة للتوسع في التعلم التعزيزي للجيل القادم. في هذا العمل، ندرس كيف تشكل استراتيجيات التدريب الوسيط الديناميكيات الخاصة بالتعلم التعزيزي، مع التركيز على عائلتين ممثلتين من النماذج: Qwen و Llama. كشفت دراستنا أن (1) المجموعات النصية الرياضية عالية الجودة، مثل MegaMath-Web-Pro، تحسن بشكل كبير أداء النموذج الأساسي وأداء التعلم التعزيزي، بينما تفشل البديلات الحالية (مثل FineMath-4plus) في تحقيق ذلك؛ (2) إضافة بيانات بأسلوب الأسئلة والأجوبة (QA)، وخاصة أمثلة التفكير المتسلسل الطويلة (CoT)، تعزز نتائج التعلم التعزيزي، وتزيد البيانات التعليمية من هذا الأثر؛ (3) بينما يحسن التفكير المتسلسل الطويل العمق الاستدلالي، فإنه يمكن أيضًا أن يسبب زيادة الإسهاب في استجابات النموذج وعدم استقرار التدريب في التعلم التعزيزي، مما يؤكد أهمية تنسيق البيانات؛ (4) توسيع نطاق التدريب الوسيط يؤدي باستمرار إلى أداء أفضل في مرحلة ما بعد التعلم التعزيزي. بناءً على هذه الرؤى، نقدم استراتيجية تدريب وسيط ذات مرحلتين، وهي Stable-then-Decay، حيث يتم تدريب النماذج الأساسية أولًا على 200 مليار رمز باستخدام معدل تعلم ثابت، ثم يتم تدريبها على 20 مليار رمز عبر ثلاثة فروع متخصصة في التفكير المتسلسل مع انخفاض معدل التعلم. هذا يؤدي إلى ظهور OctoThinker، وهي عائلة من النماذج التي تظهر توافقًا قويًا مع التعلم التعزيزي وتغلق الفجوة الأداء مع العائلات الأكثر صداقة للتعلم التعizizi مثل Qwen. نأمل أن يساعد عملنا في تحديد استراتيجيات ما قبل التدريب للنماذج الأساسية في عصر التعلم التعзиزي. لدعم البحث المستقبلي، نطلق نماذجنا المفتوحة المصدر بالإضافة إلى مجموعة بيانات مركزة تحتوي على أكثر من 70 مليار رمز موجهة نحو الاستدلال الرياضي الكثيف (أي MegaMath-Web-Pro-Max).
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.