HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 13 أيام

GTA: التعلم المعزز الموجه بالرقابة لتصنيف النصوص باستخدام نماذج اللغة الكبيرة

GTA: التعلم المعزز الموجه بالرقابة لتصنيف النصوص باستخدام نماذج اللغة الكبيرة

الملخص

في مهام معالجة اللغة الطبيعية، تعاني الطرق المُعدّلة باستخدام التعلم بالتعزيز النقي (RL) غالبًا من استكشاف غير فعّال وتباطؤ في التقارب؛ في حين أن الطرق المُعدّلة باستخدام التدريب المراقب (SFT)، رغم كفاءتها في التدريب، تمتلك حدًا أقصى محدودًا للأداء، كما أنها تفتقر إلى أساس نظري متين مقارنةً بـ RL. ولحل تناقض الكفاءة مقابل القدرة، نقترح إطار عمل يُسمى "التخمين-التفكير-الإجابة" (GTA)، الذي يدمج كفاءة SFT مع مكاسب القدرة الناتجة عن RL ضمن نموذج تدريبي موحد. يعمل هذا الإطار من خلال جعل النموذج أولاً يُقدّم تخمينًا مؤقتًا (يُحسَّن باستخدام دالة الخسارة عبر التباديل)، ثم يُراجع هذا التخمين قبل إنتاج الإجابة النهائية، حيث تُستخدم مكافآت RL لتشكيل كل من الإجابة النهائية وشكل هيكل GTA بالكامل. وتُظهر هذه الطريقة الهجينة تقاربًا أسرع من الطرق البحتة القائمة على RL، وتحقيق أداءً أعلى من الطرق البحتة القائمة على SFT. ولتقليل تعارض التدرجات بين إشارتي التدريب، نستخدم تقنيات قناع الخسارة (loss masking) وقيود التدرج (gradient constraints). وأظهرت النتائج التجريبية على أربع معايير تصنيف نصي أن GTA يُسرّع التقارب بشكل ملحوظ، ويتفوّق على كلا النموذجين الأساسيين: SFT وRL.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GTA: التعلم المعزز الموجه بالرقابة لتصنيف النصوص باستخدام نماذج اللغة الكبيرة | الأوراق البحثية | HyperAI