CamemBERT: نموذج لغة فرنسي لذيذ

أصبحت نماذج اللغة المُدرَّبة مسبقًا شائعة جدًا في معالجة اللغة الطبيعية. وعلى الرغم من نجاحها، فإن معظم النماذج المتاحة تم تدريبها إما على بيانات باللغة الإنجليزية أو على دمج بيانات متعددة اللغات. هذا يُحد من الاستخدام العملي لهذه النماذج في جميع اللغات ما عدا الإنجليزية. في هذا البحث، نستعرض إمكانية تدريب نماذج لغوية قائمة على معمارية Transformer لغة واحدة في لغات أخرى، مع أخذ اللغة الفرنسية كمثال، ونقيّم نماذجنا اللغوية في مهام تحديد الصفة النحوية (part-of-speech tagging)، وتحليل الاعتماد النحوي (dependency parsing)، وتحديد الكيانات المعرفة (named entity recognition)، والاستنتاج اللغوي الطبيعي (natural language inference). نُظهر أن استخدام بيانات تم جمعها من الويب (web crawled data) يُفضَّل على استخدام بيانات ويكيبيديا. وبشكل مفاجئ أكثر، نُثبت أن مجموعة بيانات ويب صغيرة نسبيًا (4 غيغابايت) تؤدي إلى نتائج جيدة مثل تلك التي تُحقق باستخدام مجموعات بيانات أكبر (130 غيغابايت أو أكثر). وتحقيقًا لنتائج متميزة، تُظهر النموذج الأفضل لدينا، CamemBERT، أداءً يُساوي أو يُفوق أفضل النتائج المُحققة في جميع المهام الأربع.