على التفاعل بين التدريب المسبق، والتدريب الوسيط، والتعلم بالتعزيز في نماذج اللغة الاستدلالية
على التفاعل بين التدريب المسبق، والتدريب الوسيط، والتعلم بالتعزيز في نماذج اللغة الاستدلالية
Charlie Zhang Graham Neubig Xiang Yue

الملخص
أظهرت التقنيات الحديثة لتعلم التقوية (RL) تحسّنًا ملحوظًا في قدرة النماذج اللغوية على التفكير، ومع ذلك لا يزال غير واضح ما إذا كان التدريب اللاحق (post-training) فعلاً يمدد قدرة النموذج على التفكير لما وراء ما يكتسبه خلال مرحلة التدريب المسبق. وتشكل التحديات الأساسية في هذا المجال نقص السيطرة داخل خطوط التدريب الحديثة: إذ تكون مجموعات البيانات الضخمة المستخدمة في التدريب المسبق غير شفافة، وغالبًا ما تُهمل مرحلة التدريب المتوسطة، كما أن أهداف تعلم التقوية تتفاعل بطرق معقدة مع المعرفة السابقة غير المعروفة. وللتغلب على هذه الغموض، نطور إطارًا تجريبيًا مُحكمًا بالكامل يعزل المساهمات السببية للتدريب المسبق، والتدريب المتوسط، والتدريب اللاحق القائم على تعلم التقوية. ويستخدم نهجنا مهامًا صناعية للتفكير تتضمن عمليات ذرية صريحة، وسجلاً قابلاً للتحليل للتفكير خطوة بخطوة، بالإضافة إلى تلاعب منهجي بتوزيعات التدريب. ونقيّم النماذج على محورين: التعميم الاستشرافي نحو تركيبات أكثر تعقيدًا، والتعميم السياقي عبر سياقات سطحية مختلفة. وباستخدام هذا الإطار، نوفق بين وجهات النظر المتعارضة حول فعالية تعلم التقوية. ونُظهر أن: 1) يُنتج تعلم التقوية مكاسب حقيقية في القدرة (باستخدام مؤشر pass@128) فقط عندما يترك التدريب المسبق هامشًا كافيًا، وعندما تستهدف بيانات تعلم التقوية حدود كفاءة النموذج، أي المهام التي تقع على الحدود بين الصعوبة والقابلية للتحقيق. 2) يتطلب التعميم السياقي تعرّضًا محدودًا ولكن كافيًا للتدريب المسبق، وبعد ذلك يمكن لتعلم التقوية أن يُحول بموثوقية. 3) يُحسّن التدريب المتوسط الأداء بشكل ملحوظ مقارنةً بتطبيق تعلم التقوية وحده، تحت ظروف حسابية ثابتة، ما يُبرز دوره المركزي ولكن المُهمل في خطوط التدريب. 4) تقليل المكافآت على مستوى العملية يقلل من ظاهرة "الاستغلال المكافأة" (reward hacking) ويعزز دقة التفكير. وبشكل جماعي، تُوضّح هذه النتائج التفاعل بين التدريب المسبق، والتدريب المتوسط، وتعلم التقوية، وتوفر أساسًا لفهم وتحسين استراتيجيات تدريب النماذج اللغوية التي تمتلك قدرات تفكير متقدمة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.