التدريب الموحد للنموذج اللغوي لفهم وإنشاء اللغة الطبيعية

يقدم هذا البحث نموذجًا موحّدًا مسبق التدريب للغة (UniLM) يمكن تحسينه لمهام فهم اللغة الطبيعية وتكوينها. يتم تدريب النموذج مسبقًا باستخدام ثلاثة أنواع من مهام نمذجة اللغة: الأحادية الاتجاه، ثنائية الاتجاه، والتنبؤ بالمتتالية إلى متتالية. يتم تحقيق النمذجة الموحّدة من خلال استخدام شبكة Transformer مشتركة واستخدام أقنعة انتباه ذاتية محددة للتحكم في السياق الذي يعتمد عليه التنبؤ. أظهر UniLM أداءً أفضل من BERT في معيار GLUE وفي مهام الإجابة على الأسئلة في SQuAD 2.0 وCoQA. بالإضافة إلى ذلك، حقق UniLM نتائجًا جديدة رائدة في خمسة مجموعات بيانات لتكوين اللغة الطبيعية، بما في ذلك تحسين مؤشر ROUGE-L للملخصات الاستنتاجية لـ CNN/DailyMail إلى 40.51 (تحسين قدره 2.04 بشكل مطلق)، ومؤشر ROUGE-L للملخصات الاستنتاجية لـ Gigaword إلى 35.75 (تحسين قدره 0.86 بشكل مطلق)، ودرجة F1 لتكوين الأسئلة في CoQA إلى 82.5 (تحسين قدره 37.1 بشكل مطلق)، ومؤشّر BLEU-4 لتكوين الأسئلة في SQuAD إلى 22.12 (تحسين قدره 3.75 بشكل مطلق)، ودرجة NIST-4 لتوليد ردود الحوارات المستندة إلى الوثائق في DSTC7 إلى 2.67 (أداء الإنسان هو 2.65). يمكن الوصول إلى الكود والنماذج المسبقة التدريب من خلال الرابط https://github.com/microsoft/unilm.