أرابيرت: نموذج مبني على الترانسفيرمر لفهم اللغة العربية

اللغة العربية هي لغة غنية من الناحية الشكلية، لكنها تمتلك موارد محدودة نسبيًا، وتنمّ عن تركيب لغوي أقل استكشافًا مقارنة باللغة الإنجليزية. وبسبب هذه القيود، ظلت مهام معالجة اللغة الطبيعية العربية (NLP)، مثل تحليل المشاعر (SA)، وتحديد الكيانات المعرفية (NER)، والإجابة على الأسئلة (QA)، صعبة جدًا في مواجهتها. في الآونة الأخيرة، ومع انتشار النماذج القائمة على المُحَوِّلات (Transformers)، أظهرت النماذج المخصصة للغة والمبنية على نموذج BERT فعالية كبيرة في فهم اللغة، بشرط أن تكون مُدرَّبة مسبقًا على مجموعات بيانات ضخمة جدًا. وقد ساهمت هذه النماذج في وضع معايير جديدة، وتحقيق نتائج متفوقة في معظم مهام معالجة اللغة الطبيعية. في هذه الورقة، قمنا بتدريب نموذج BERT مسبقًا خصيصًا للغة العربية، بهدف تحقيق نفس النجاح الذي حققه نموذج BERT للغة الإنجليزية. وتمت مقارنة أداء AraBERT مع نموذج BERT متعدد اللغات من جوجل، بالإضافة إلى أساليب متطورة أخرى. وأظهرت النتائج أن AraBERT الجديد حقق أداءً متفوقًا على معظم مهام معالجة اللغة الطبيعية العربية المُختبرة. وتم إتاحة نماذج AraBERT المُدرَّبة مسبقًا بشكل عام عبر الرابط https://github.com/aub-mind/arabert، بهدف تشجيع الأبحاث والتطبيقات في مجال معالجة اللغة العربية.