FlauBERT: التدريب المسبق للنموذج اللغوي غير المراقب للفرنسية

أصبحت نماذج اللغات خطوة أساسية لتحقيق نتائج متميزة في العديد من مهام معالجة اللغة الطبيعية (NLP). وباستغلال الكمية الهائلة من النصوص غير المُعلَّمة المتاحة حاليًا، توفر هذه النماذج طريقة فعّالة لتدريب تمثيلات كلمات مستمرة يمكن تحسينها دقيقًا (fine-tuning) لمهام لاحقة، مع مراعاة السياق على مستوى الجملة. وقد تم تأكيد ذلك بشكل واسع بالنسبة للغة الإنجليزية باستخدام تمثيلات مُحَوَّلة سياقيًا (Dai and Le, 2015; Peters et al., 2018; Howard and Ruder, 2018; Radford et al., 2018; Devlin et al., 2019; Yang et al., 2019b). في هذه الورقة، نقدم ونشارك نموذج FlauBERT، وهو نموذج تم تدريبه على مجموعة فرنسية ضخمة ومتنوعة من النصوص. تم تدريب نماذج بمقاييس مختلفة باستخدام حاسوب جين زاي (Jean Zay) الفائق التابع للمعهد الوطني الفرنسي للبحث العلمي (CNRS). ونطبّق نماذج اللغة الفرنسية لدينا على مهام متنوعة في مجال معالجة اللغة الطبيعية (تصنيف النصوص، إعادة صياغة النصوص، الاستدلال اللغوي الطبيعي، التحليل النحوي، تفكيك معنى الكلمة)، ونُظهر أن هذه النماذج تتفوّق في معظم الأحيان على الطرق الأخرى للتدريب المسبق. كما نُشارك مختلف إصدارات FlauBERT، إلى جانب بروتوكول تقييم موحّد للمهام اللاحقة، يُسمّى FLUE (تقييم فهم اللغة الفرنسية)، لصالح مجتمع البحث لتمكين تجارب قابلة للتكرار في مجال معالجة اللغة الطبيعية باللغة الفرنسية.