HyperAIHyperAI

Command Palette

Search for a command to run...

على التفاعل بين التدريب المسبق، والتدريب الوسيط، والتعلم بالتعزيز في نماذج اللغة الاستدلالية

Charlie Zhang Graham Neubig Xiang Yue

الملخص

أظهرت التقنيات الحديثة لتعلم التقوية (RL) تحسّنًا ملحوظًا في قدرة النماذج اللغوية على التفكير، ومع ذلك لا يزال غير واضح ما إذا كان التدريب اللاحق (post-training) فعلاً يمدد قدرة النموذج على التفكير لما وراء ما يكتسبه خلال مرحلة التدريب المسبق. وتشكل التحديات الأساسية في هذا المجال نقص السيطرة داخل خطوط التدريب الحديثة: إذ تكون مجموعات البيانات الضخمة المستخدمة في التدريب المسبق غير شفافة، وغالبًا ما تُهمل مرحلة التدريب المتوسطة، كما أن أهداف تعلم التقوية تتفاعل بطرق معقدة مع المعرفة السابقة غير المعروفة. وللتغلب على هذه الغموض، نطور إطارًا تجريبيًا مُحكمًا بالكامل يعزل المساهمات السببية للتدريب المسبق، والتدريب المتوسط، والتدريب اللاحق القائم على تعلم التقوية. ويستخدم نهجنا مهامًا صناعية للتفكير تتضمن عمليات ذرية صريحة، وسجلاً قابلاً للتحليل للتفكير خطوة بخطوة، بالإضافة إلى تلاعب منهجي بتوزيعات التدريب. ونقيّم النماذج على محورين: التعميم الاستشرافي نحو تركيبات أكثر تعقيدًا، والتعميم السياقي عبر سياقات سطحية مختلفة. وباستخدام هذا الإطار، نوفق بين وجهات النظر المتعارضة حول فعالية تعلم التقوية. ونُظهر أن: 1) يُنتج تعلم التقوية مكاسب حقيقية في القدرة (باستخدام مؤشر pass@128) فقط عندما يترك التدريب المسبق هامشًا كافيًا، وعندما تستهدف بيانات تعلم التقوية حدود كفاءة النموذج، أي المهام التي تقع على الحدود بين الصعوبة والقابلية للتحقيق. 2) يتطلب التعميم السياقي تعرّضًا محدودًا ولكن كافيًا للتدريب المسبق، وبعد ذلك يمكن لتعلم التقوية أن يُحول بموثوقية. 3) يُحسّن التدريب المتوسط الأداء بشكل ملحوظ مقارنةً بتطبيق تعلم التقوية وحده، تحت ظروف حسابية ثابتة، ما يُبرز دوره المركزي ولكن المُهمل في خطوط التدريب. 4) تقليل المكافآت على مستوى العملية يقلل من ظاهرة "الاستغلال المكافأة" (reward hacking) ويعزز دقة التفكير. وبشكل جماعي، تُوضّح هذه النتائج التفاعل بين التدريب المسبق، والتدريب المتوسط، وتعلم التقوية، وتوفر أساسًا لفهم وتحسين استراتيجيات تدريب النماذج اللغوية التي تمتلك قدرات تفكير متقدمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
على التفاعل بين التدريب المسبق، والتدريب الوسيط، والتعلم بالتعزيز في نماذج اللغة الاستدلالية | مستندات | HyperAI