دفع التقييم القابل للقراءة للنصوص: نموذج Transformer يلتقي بميزات لغوية مصنوعة يدويًا

نُبلغ عن تحسينين جوهريين في تقييم قابلية القراءة: 1. ثلاثة سمات جديدة تعتمد على الدلالة المتقدمة، و2. أدلة مُتوقّتة تُظهر أن النماذج التقليدية لتعلم الآلة (مثل الغابة العشوائية، باستخدام سمات مُصممة يدويًا) يمكن دمجها مع النماذج القائمة على المحولات (مثل RoBERTa) لتعزيز أداء النموذج. أولاً، نستكشف النماذج المناسبة من بين المحولات والتعلم الآلي التقليدي. ثم، نستخرج 255 سمة لغوية مُصممة يدويًا باستخدام برنامج استخراج مطوّر ذاتيًا. وأخيرًا، نجمع هذه السمات لتكوين عدة نماذج هجينة، والتي حققت دقةً من الدرجة الأولى (SOTA) على مجموعات بيانات شهيرة في مجال تقييم قابلية القراءة. وتُسهم استخدام السمات المُصممة يدويًا في تحسين أداء النموذج على مجموعات بيانات أصغر. وتجدر الإشارة إلى أن النموذج الهجين RoBERTA-RF-T1 حقق دقة تصنيف قريبة من الكمال تبلغ 99٪، بزيادة قدرها 20.3٪ مقارنةً بالنموذج السابق ذي الأداء الأفضل في الفئة.