DeBERTaV3: تحسين DeBERTa باستخدام التدريب من نوع ELECTRA مع مشاركة تضمينات منفصلة عن التدرج

تقدم هذه الورقة نموذجًا لغويًا مُدرَّبًا مسبقًا جديدًا يُسمى DeBERTaV3، الذي يُحسِّن النموذج الأصلي DeBERTa من خلال استبدال نموذج التوليد المُقنَّع (MLM) بمهام التدريب المُستندة إلى اكتشاف التبديل (RTD)، وهي مهمة تدريب مُسبق أكثر كفاءة من حيث الاستخدام العيني. تُظهر تحليلاتنا أن مشاركة التضمينات البسيطة (vanilla embedding sharing) في نموذج ELECTRA تُضعف كفاءة التدريب والأداء النموذجي، وذلك لأن خسائر التدريب الخاصة بالـ discriminator والـ generator تُوجه تضمينات الرموز في اتجاهات مختلفة، مما يُنشئ ديناميات "معركة الشد والجذب". ولذلك، نقترح طريقة جديدة لمشاركة التضمينات تُفرَّق التدرجات (gradient-disentangled embedding sharing)، والتي تتجنب هذه الديناميات، مما يُحسّن كلاً من كفاءة التدريب ونوعية النموذج المُدرَّب مسبقًا. تم تدريب DeBERTaV3 مسبقًا باستخدام نفس الإعدادات المُستخدمة في DeBERTa، لتوضيح أدائه المتميز على مجموعة واسعة من مهام فهم اللغة الطبيعية (NLU) اللاحقة. وعلى سبيل المثال، حقق نموذج DeBERTaV3 الكبير متوسط درجة 91.37% على معيار GLUE الذي يضم ثمانية مهام، وهو ما يفوق DeBERTa بنسبة 1.37% وELECTRA بنسبة 1.91%، مُحقِّقًا حالة حديثة (SOTA) جديدة ضمن النماذج ذات البنية المماثلة. علاوةً على ذلك، قمنا بتدريب نموذج متعدد اللغات يُسمى mDeBERTa، ولاحظنا تحسنًا أكبر مقارنةً بالأساسيات القوية مقارنةً بالنماذج الإنجليزية. على سبيل المثال، حقق نموذج mDeBERTa Base دقة تجاوزت 79.8% في المهام الصفرية عبر اللغات على XNLI، بزيادة قدرها 3.6% مقارنةً بـ XLM-R Base، مما يُحدث حالة حديثة جديدة على هذا المعيار. وقمنا بالإفصاح عن نماذج التدريب المسبق والكود المستخدم في الاستدلال عبر الرابط التالي: https://github.com/microsoft/DeBERTa.