منذ 11 أيام

DeBERTa: انتباه منفصل مُعزّز بـ BERT مع تفكيك التفكيك

Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen

الملخص

لقد أسهم التقدم الأخير في نماذج اللغة العصبية المُدرَّبة مسبقًا في تحسين أداء العديد من مهام معالجة اللغة الطبيعية (NLP) بشكل كبير. في هذه الورقة، نقترح بنية نموذج جديدة تُسمى DeBERTa (DeBERTa: تحسين التشفير في BERT مع انتباه منفصل)، والتي تحسن نماذج BERT وRoBERTa باستخدام تقنيتين جديدتين. الأولى هي آلية الانتباه المنفصلة، حيث يُمثل كل كلمة باستخدام متجهين يُعبران على محتواها وموقعها على التوالي، ويُحسب وزن الانتباه بين الكلمات باستخدام مصفوفات منفصلة لكل من المحتوى والمواقع النسبية. الثانية هي مُشفّر التشفير المُحسّن، الذي يُدمج المواقع المطلقة في طبقة التشفير لتنبؤ الكلمات المُقنّعة أثناء التدريب المسبق للنموذج. بالإضافة إلى ذلك، نستخدم طريقة تدريب مضاد افتراضية جديدة أثناء التدريب المُخصص لتحسين قدرة النموذج على التعميم. نُظهر أن هذه التقنيات تُحسّن بشكل كبير كفاءة التدريب المسبق للنموذج، وأداء المهام اللاحقة في فهم اللغة الطبيعية (NLU) وإنشاء اللغة الطبيعية (NLG). مقارنة بنموذج RoBERTa-Large، فإن نموذج DeBERTa المدرب على نصف بيانات التدريب يُظهر أداءً أفضل بشكل متسق في طيف واسع من مهام NLP، مع تحسينات تصل إلى +0.9% في مهمة MNLI (90.2% مقابل 91.1%)، و+2.3% في SQuAD v2.0 (88.4% مقابل 90.7%)، و+3.6% في RACE (83.2% مقابل 86.8%). وبشكل لافت، قمنا بتوسيع نطاق DeBERTa من خلال تدريب نسخة أكبر تتكون من 48 طبقة تحويلية وتحتوي على 1.5 مليار معلمة. ونتيجة لهذا التحسين الكبير في الأداء، أصبح النموذج الفردي DeBERTa هو أول نموذج يتفوق على الأداء البشري في معيار SuperGLUE (Wang et al., 2019a) من حيث المتوسط الماكرو (89.9 مقابل 89.8)، كما أن نموذج DeBERTa المُجمّع يحتل الصدارة في قائمة التصنيف الخاصة بـ SuperGLUE حتى تاريخ 6 يناير 2021، متفوقًا على الأساس البشري بفارق ملحوظ (90.3 مقابل 89.8).