تُستخدم تضمينات BERT لتقييم تلقائي لسهولة القراءة

يُعد تقييم القابلية للقراءة التلقائي (ARA) مهمة تقييم مستوى سهولة أو صعوبة النصوص بالنسبة لجمهور مستهدف. ومن بين المشكلات المفتوحة المتعددة في هذا المجال، يُعدّ تمكين النماذج المدربة على هذه المهمة من تحقيق كفاءة حتى في اللغات ذات الموارد المحدودة أحد التحديات الرئيسية التي يواجهها الباحثون. في هذه الدراسة، نقترح طريقة بديلة لاستخدام التضمينات الغنية بالمعلومات من نماذج BERT مع الخصائص اللغوية المُصممة يدويًا من خلال منهجية مدمجة لتقييم القابلية للقراءة. وتُظهر النتائج أن الطريقة المقترحة تفوق الطرق الكلاسيكية في تقييم القابلية للقراءة باستخدام مجموعتي بيانات باللغة الإنجليزية والفلبينية، حيث تحققت زيادة تصل إلى 12.4٪ في أداء مقياس F1. كما نُظهر أن المعلومات العامة المُشفرة في تضمينات BERT يمكن استخدامها كمجموعة خصائص بديلة للغات ذات الموارد المحدودة مثل الفلبينية، التي تفتقر إلى أدوات معالجة اللغة الطبيعية (NLP) الواسعة في المجالات الدلالية والتركيبية، مما يسمح باستخراج قيم الخصائص بشكل صريح لإنجاز المهمة.