UniLMv2: نماذج لغوية مُقنعة بالكمامة لتدريب مسبق موحد لنماذج اللغة

نُقترح تدريب نموذج لغوي موحد مسبقًا على مهام الترميز التلقائي (autoencoding) والنمذجة اللغوية جزئيًا التكرارية (partially autoregressive) باستخدام إجراء تدريب جديد يُسمى نموذج اللغة المُقنّع الوهمي (PMLM). مع نص إدخال يحتوي على رموز مُقنّعة، نعتمد على أقنعة تقليدية لتعلم العلاقات بين الرموز المعطوبة والسياق من خلال الترميز التلقائي، وباستخدام أقنعة وهمية لتعلم العلاقات الداخلية بين الفواصل المقنّعة من خلال النمذجة الجزئية التكرارية. وباستخدام تضمينات الموضع المُصممة بعناية وأقنعة الانتباه الذاتي، يتم إعادة استخدام ترميزات السياق لتقليل الحسابات الزائدة. علاوةً على ذلك، توفر الأقنعة التقليدية المستخدمة في الترميز التلقائي معلومات تغطية عالمية، مما يتيح الوصول إلى جميع تضمينات الموضع أثناء النمذجة اللغوية الجزئية التكرارية. بالإضافة إلى ذلك، تدرب المهمتين النموذج اللغوي الموحد كمُشفّر ثنائي الاتجاه ومحول تسلسلي إلى تسلسلي، على التوالي. تُظهر تجاربنا أن النماذج اللغوية الموحدة المُدرّبة مسبقًا باستخدام PMLM تحقق نتائج جديدة على مستوى الحد الأقصى (state-of-the-art) في مجموعة واسعة من مهام فهم اللغة الطبيعية وإنشائها عبر عدة معايير شائعة الاستخدام.