منذ 2 أشهر

التدريب المُقَدَّم للشبكات ذات الانتباه الذاتي باستخدام نموذج التكملة

Alexei Baevski; Sergey Edunov; Yinhan Liu; Luke Zettlemoyer; Michael Auli

الملخص

نقدم نهجًا جديدًا لتدريب مسبق لنموذج متحول ثنائي الاتجاه (bi-directional transformer) يوفر زيادة كبيرة في الأداء عبر مجموعة متنوعة من مشاكل فهم اللغة. يقوم نموذجنا بحل مهمة إعادة بناء الكلمات على أسلوب الكلوز، حيث يتم حذف كل كلمة ويجب التنبؤ بها بناءً على باقي النص. تظهر التجارب زيادة كبيرة في الأداء على مجموعة اختبارات GLUE ونتائج جديدة رائدة في مجال التعرف على الكيانات المسماة (NER) بالإضافة إلى مقاييس تحليل التركيب (constituency parsing)، وهي نتائج متسقة مع النموذج BERT الذي تم تقديمه بشكل متزامن. كما نقدم تحليلًا مفصلًا لعدد من العوامل التي تسهم في التدريب الفعال المسبق، بما في ذلك نطاق البيانات وحجمها، قدرة النموذج، والاختلافات في هدف الكلوز.