منذ شهر واحد

XLNet: التدريب المسبق العام للأنموذج الذاتي التنبؤي لفهم اللغة

Zhilin Yang; Zihang Dai; Yiming Yang; Jaime Carbonell; Ruslan Salakhutdinov; Quoc V. Le

الملخص

بفضل قدرتها على نمذجة السياقات ثنائية الاتجاه، تحقق طرق التدريب المسبقة القائمة على الترميز الذاتي للتقليل من الضوضاء مثل BERT أداءً أفضل مقارنة بالطرق القائمة على نماذج اللغة الذاتية التكرارية. ومع ذلك، فإن اعتماد BERT على تشويه المدخلات باستخدام الأقنعة (masks) يؤدي إلى إغفالها للارتباط بين المواقع المشوهة وإلى وجود اختلاف بين مرحلتي التدريب المسبق والتدريب الدقيق. في ضوء هذه الإيجابيات والسلبيات، نقترح XLNet، وهي طريقة تدريب مسبقة ذاتية التكرار معممة تسمح (1) بتعلم السياقات ثنائية الاتجاه من خلال تعظيم الاحتمال المتوقع عبر جميع تباديل ترتيب العوامل و(2) تتغلب على حدود BERT بفضل صياغتها الذاتية التكرارية. علاوة على ذلك، تقوم XLNet بدمج أفكار من Transformer-XL، وهو النموذج الذاتي التكراري الرائد في مجاله، في عملية التدريب المسبق. عمليًا، وفي ظل إعدادات تجربة مماثلة، حققت XLNet أداءً أفضل من BERT في 20 مهمة، بما فيها الأسئلة والإجابات والاستدلال اللغوي الطبيعي وتحليل المشاعر وتقييم الوثائق، وأحيانًا بمargins كبيرة.