منذ 18 أيام

روبربرت: نموذج لغوي يستند إلى روبرتا الهولندية

Pieter Delobelle, Thomas Winters, Bettina Berendt

الملخص

لقد سيطرت النماذج اللغوية المُدرَّبة مسبقًا على مجال معالجة اللغة الطبيعية في السنوات الأخيرة، وأدت إلى تحسينات كبيرة في الأداء بالنسبة لعدة مهام معقدة في اللغة الطبيعية. واحدة من أبرز النماذج المُدرَّبة مسبقًا هي BERT، التي تم إصدارها نسخة إنجليزية ونسخة متعددة اللغات. وعلى الرغم من أن BERT المتعددة اللغات أظهرت أداءً جيدًا في العديد من المهام، إلا أن الدراسات الحديثة تُظهر أن نماذج BERT التي تم تدريبها على لغة واحدة تتفوق بشكل كبير على النسخة المتعددة اللغات. وبالتالي، يمتلك تدريب نموذج BERT الهولندي إمكانات كبيرة لعدد واسع من المهام المتعلقة بمعالجة اللغة الهولندية. في حين أن النهج السابقة استخدمت إصدارات مبكرة من BERT لتدريب نسخة هولندية من BERT، استخدمنا RoBERTa، وهي طريقة مُحسَّنة بقوة لـ BERT، لتدريب نموذج لغوي هولندي يُدعى RobBERT. قمنا بقياس أداء النموذج في مهام مختلفة، وكذلك بتحديد أهمية حجم مجموعة البيانات المستخدمة في التحسين الدقيق (fine-tuning). كما قمنا بتقييم أهمية مُفكِّكات الرموز المخصصة للغة، ونُزاهة النموذج. ووجدنا أن RobBERT يُحسِّن النتائج الحالية في أداء العديد من المهام، وخاصةً يتفوق بشكل ملحوظ على النماذج الأخرى عند التعامل مع مجموعات بيانات صغيرة. تشير هذه النتائج إلى أن RobBERT نموذج مُدرَّب مسبقًا قوي جدًا لعدد كبير من المهام اللغوية الهولندية. وتم إتاحة النماذج المُدرَّبة مسبقًا والمحسَّنة دقيقًا للجمهور لدعم التطبيقات المستقبلية في معالجة اللغة الهولندية.