HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

OctoThinker: التحفيز خلال التدريب يشجع توسيع تعلم التعزيز

Zengzhi Wang Fan Zhou Xuefeng Li Pengfei Liu

OctoThinker: التحفيز خلال التدريب يشجع توسيع تعلم التعزيز

الملخص

تظهر عائلات نماذج اللغات الأساسية المختلفة، مثل Llama و Qwen، سلوكيات متباعدة أثناء التدريب اللاحق باستخدام التعلم التعزيزي (RL)، خاصة في المهام التي تتطلب تفكيرًا كثيفًا. ما الذي يجعل نموذج اللغة الأساسي مناسبًا للتعلم التعزيزي؟ من الضروري الحصول على فهم أعمق لهذا السؤال لتطوير نماذج أساسية قابلة للتوسع في التعلم التعزيزي للجيل القادم. في هذا العمل، ندرس كيف تشكل استراتيجيات التدريب الوسيط الديناميكيات الخاصة بالتعلم التعزيزي، مع التركيز على عائلتين ممثلتين من النماذج: Qwen و Llama. كشفت دراستنا أن (1) المجموعات النصية الرياضية عالية الجودة، مثل MegaMath-Web-Pro، تحسن بشكل كبير أداء النموذج الأساسي وأداء التعلم التعزيزي، بينما تفشل البديلات الحالية (مثل FineMath-4plus) في تحقيق ذلك؛ (2) إضافة بيانات بأسلوب الأسئلة والأجوبة (QA)، وخاصة أمثلة التفكير المتسلسل الطويلة (CoT)، تعزز نتائج التعلم التعزيزي، وتزيد البيانات التعليمية من هذا الأثر؛ (3) بينما يحسن التفكير المتسلسل الطويل العمق الاستدلالي، فإنه يمكن أيضًا أن يسبب زيادة الإسهاب في استجابات النموذج وعدم استقرار التدريب في التعلم التعزيزي، مما يؤكد أهمية تنسيق البيانات؛ (4) توسيع نطاق التدريب الوسيط يؤدي باستمرار إلى أداء أفضل في مرحلة ما بعد التعلم التعزيزي. بناءً على هذه الرؤى، نقدم استراتيجية تدريب وسيط ذات مرحلتين، وهي Stable-then-Decay، حيث يتم تدريب النماذج الأساسية أولًا على 200 مليار رمز باستخدام معدل تعلم ثابت، ثم يتم تدريبها على 20 مليار رمز عبر ثلاثة فروع متخصصة في التفكير المتسلسل مع انخفاض معدل التعلم. هذا يؤدي إلى ظهور OctoThinker، وهي عائلة من النماذج التي تظهر توافقًا قويًا مع التعلم التعزيزي وتغلق الفجوة الأداء مع العائلات الأكثر صداقة للتعلم التعizizi مثل Qwen. نأمل أن يساعد عملنا في تحديد استراتيجيات ما قبل التدريب للنماذج الأساسية في عصر التعلم التعзиزي. لدعم البحث المستقبلي، نطلق نماذجنا المفتوحة المصدر بالإضافة إلى مجموعة بيانات مركزة تحتوي على أكثر من 70 مليار رمز موجهة نحو الاستدلال الرياضي الكثيف (أي MegaMath-Web-Pro-Max).

مستودعات الكود

gair-nlp/octothinker
رسمي
pytorch
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
OctoThinker: التحفيز خلال التدريب يشجع توسيع تعلم التعزيز | الأوراق البحثية | HyperAI