GTA: التعلم المعزز الموجه بالرقابة لتصنيف النصوص باستخدام نماذج اللغة الكبيرة

الملخص
في مهام معالجة اللغة الطبيعية، تعاني الطرق المُعدّلة باستخدام التعلم بالتعزيز النقي (RL) غالبًا من استكشاف غير فعّال وتباطؤ في التقارب؛ في حين أن الطرق المُعدّلة باستخدام التدريب المراقب (SFT)، رغم كفاءتها في التدريب، تمتلك حدًا أقصى محدودًا للأداء، كما أنها تفتقر إلى أساس نظري متين مقارنةً بـ RL. ولحل تناقض الكفاءة مقابل القدرة، نقترح إطار عمل يُسمى "التخمين-التفكير-الإجابة" (GTA)، الذي يدمج كفاءة SFT مع مكاسب القدرة الناتجة عن RL ضمن نموذج تدريبي موحد. يعمل هذا الإطار من خلال جعل النموذج أولاً يُقدّم تخمينًا مؤقتًا (يُحسَّن باستخدام دالة الخسارة عبر التباديل)، ثم يُراجع هذا التخمين قبل إنتاج الإجابة النهائية، حيث تُستخدم مكافآت RL لتشكيل كل من الإجابة النهائية وشكل هيكل GTA بالكامل. وتُظهر هذه الطريقة الهجينة تقاربًا أسرع من الطرق البحتة القائمة على RL، وتحقيق أداءً أعلى من الطرق البحتة القائمة على SFT. ولتقليل تعارض التدرجات بين إشارتي التدريب، نستخدم تقنيات قناع الخسارة (loss masking) وقيود التدرج (gradient constraints). وأظهرت النتائج التجريبية على أربع معايير تصنيف نصي أن GTA يُسرّع التقارب بشكل ملحوظ، ويتفوّق على كلا النموذجين الأساسيين: SFT وRL.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.