نموذج ترتيب زوجي عصبي لتقييم قابلية القراءة

تقييم القابلية للقراءة التلقائي (ARA)، وهو المهمة المتعلقة بتعيين مستوى قراءة معين للنص، يُعامل تقليديًا كمشكلة تصنيف في أبحاث معالجة اللغة الطبيعية (NLP). في هذه الورقة، نقترح أول نموذج عصبي يعتمد على التصنيف الثنائي (pairwise ranking) لـ ARA، ونقارن أداءه مع الطرق التقليدية القائمة على التصنيف والانحدار، وكذلك الطرق غير العصبية للتصنيف الثنائي. ونُثبت أداء نموذجنا من خلال إجراء تجارب باستخدام ثلاث مجموعات بيانات باللغة الإنجليزية، وواحدة بالفرنسية، وواحدة بالإسبانية. ونُظهر أن نهجنا يُظهر أداءً ممتازًا في سيناريوهات الاختبار أحادية اللغة، سواء في التحقق من النموذج داخل المجموعة (single corpus) أو عبر المجموعات (cross corpus)، ويحقق دقة تصنيف عبر لغات (cross-lingual) بدون تدريب (zero-shot) تزيد عن 80% لكل من الفرنسية والإسبانية عند تدريب النموذج على بيانات إنجليزية. بالإضافة إلى ذلك، نُطلق أيضًا مجموعة بيانات جديدة متوازية ثنائية اللغة للقراءة باللغتين الإنجليزية والفرنسية. إلى حد معرفتنا، تُعد هذه الورقة أول عمل يقترح نموذجًا عصبيًا ثنائي التصنيف لـ ARA، وتعمل على عرض النتائج الأولى لتقييم متعدد اللغات (cross-lingual) بدون تدريب (zero-shot) باستخدام النماذج العصبية.