إعادة النظر في النماذج المدربة مسبقًا لمعالجة اللغة الطبيعية الصينية

أظهرت تمثيلات المُشفِّر ثنائية الاتجاه من نماذج Transformers (BERT) تحسينات مدهشة في مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP)، وتم اقتراح نسخ متتابعة لتحسين أداء النماذج اللغوية المُدربة مسبقًا. في هذا البحث، نركز على إعادة النظر في النماذج اللغوية الصينية المُدربة مسبقًا لفحص فعاليتها في لغة غير الإنجليزية وإطلاق سلسلة من النماذج اللغوية الصينية المُدربة مسبقًا للمجتمع العلمي. كما نقترح نموذجًا بسيطًا ولكنه فعال يُسمى MacBERT، والذي يحسن RoBERTa بعدة طرق، خاصة استراتيجية التعتيم التي تتبنى MLM كتصحيح (Mac). قمنا بإجراء تجارب واسعة على ثماني مهام صينية في مجال معالجة اللغة الطبيعية لإعادة النظر في النماذج اللغوية المُدربة مسبقًا الحالية وكذلك النموذج المقترح MacBERT. أظهرت نتائج التجارب أن MacBERT يمكنه تحقيق أفضل الأداء في العديد من مهام معالجة اللغة الطبيعية، وقد قمنا أيضًا بتقديم تفاصيل الاستبعاد مع عدة اكتشافات قد تساعد في الأبحاث المستقبلية. الموارد المتاحة: https://github.com/ymcui/MacBERT