HyperAI

الملخص

في مهام معالجة اللغة الطبيعية، تعاني الطرق المُعدّلة باستخدام التعلم بالتعزيز النقي (RL) غالبًا من استكشاف غير فعّال وتباطؤ في التقارب؛ في حين أن الطرق المُعدّلة باستخدام التدريب المراقب (SFT)، رغم كفاءتها في التدريب، تمتلك حدًا أقصى محدودًا للأداء، كما أنها تفتقر إلى أساس نظري متين مقارنةً بـ RL. ولحل تناقض الكفاءة مقابل القدرة، نقترح إطار عمل يُسمى "التخمين-التفكير-الإجابة" (GTA)، الذي يدمج كفاءة SFT مع مكاسب القدرة الناتجة عن RL ضمن نموذج تدريبي موحد. يعمل هذا الإطار من خلال جعل النموذج أولاً يُقدّم تخمينًا مؤقتًا (يُحسَّن باستخدام دالة الخسارة عبر التباديل)، ثم يُراجع هذا التخمين قبل إنتاج الإجابة النهائية، حيث تُستخدم مكافآت RL لتشكيل كل من الإجابة النهائية وشكل هيكل GTA بالكامل. وتُظهر هذه الطريقة الهجينة تقاربًا أسرع من الطرق البحتة القائمة على RL، وتحقيق أداءً أعلى من الطرق البحتة القائمة على SFT. ولتقليل تعارض التدرجات بين إشارتي التدريب، نستخدم تقنيات قناع الخسارة (loss masking) وقيود التدرج (gradient constraints). وأظهرت النتائج التجريبية على أربع معايير تصنيف نصي أن GTA يُسرّع التقارب بشكل ملحوظ، ويتفوّق على كلا النموذجين الأساسيين: SFT وRL.

GTA: التعلم المعزز الموجه بالرقابة لتصنيف النصوص باستخدام نماذج اللغة الكبيرة

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Command Palette

GTA: التعلم المعزز الموجه بالرقابة لتصنيف النصوص باستخدام نماذج اللغة الكبيرة

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas