HyperAIHyperAI
منذ 13 أيام

CamemBERT: نموذج لغة فرنسي لذيذ

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, Benoît Sagot
CamemBERT: نموذج لغة فرنسي لذيذ
الملخص

أصبحت نماذج اللغة المُدرَّبة مسبقًا شائعة جدًا في معالجة اللغة الطبيعية. وعلى الرغم من نجاحها، فإن معظم النماذج المتاحة تم تدريبها إما على بيانات باللغة الإنجليزية أو على دمج بيانات متعددة اللغات. هذا يُحد من الاستخدام العملي لهذه النماذج في جميع اللغات ما عدا الإنجليزية. في هذا البحث، نستعرض إمكانية تدريب نماذج لغوية قائمة على معمارية Transformer لغة واحدة في لغات أخرى، مع أخذ اللغة الفرنسية كمثال، ونقيّم نماذجنا اللغوية في مهام تحديد الصفة النحوية (part-of-speech tagging)، وتحليل الاعتماد النحوي (dependency parsing)، وتحديد الكيانات المعرفة (named entity recognition)، والاستنتاج اللغوي الطبيعي (natural language inference). نُظهر أن استخدام بيانات تم جمعها من الويب (web crawled data) يُفضَّل على استخدام بيانات ويكيبيديا. وبشكل مفاجئ أكثر، نُثبت أن مجموعة بيانات ويب صغيرة نسبيًا (4 غيغابايت) تؤدي إلى نتائج جيدة مثل تلك التي تُحقق باستخدام مجموعات بيانات أكبر (130 غيغابايت أو أكثر). وتحقيقًا لنتائج متميزة، تُظهر النموذج الأفضل لدينا، CamemBERT، أداءً يُساوي أو يُفوق أفضل النتائج المُحققة في جميع المهام الأربع.

CamemBERT: نموذج لغة فرنسي لذيذ | أحدث الأوراق البحثية | HyperAI