دراسة مقارنة لأنواع الميزات لتصنيف النصوص القائمة على العمر

تمكّن القدرة على تحديد عمر الجمهور المستهدف لرواية بشكل تلقائي من تطوير أدوات استرجاع المعلومات. أولاً، قد يهتم مطوّرو أنظمة توصية الكتب والمكتبات الإلكترونية بتصفية النصوص حسب عمر القارئ الأكثر احتمالاً. ثانيًا، قد يرغب الآباء في اختيار الكتب المناسبة للأطفال. وأخيرًا، سيكون من المفيد للمؤلفين والناشرين تحديد الميزات التي تؤثر في مدى ملاءمة النصوص للأطفال. في هذا المقال، نقارن الفعالية التجريبية لأنواع مختلفة من السمات اللغوية في مهمة تصنيف النصوص الأدبية بناءً على العمر. ولتحقيق ذلك، جمعنا مجموعة نصية من ملخصات كتب مصنفة ضمن فئتين: أطفال أو بالغين. وقمنا بتقييم الأنواع التالية من السمات: مؤشرات سهولة القراءة، والمشاعر، واللغوية، والتركيبية، والسمات العامة، بالإضافة إلى السمات المتعلقة بنشر الكتاب. وأظهرت النتائج أن السمات التي تصف النص على مستوى المستند يمكن أن تُحسّن بشكل ملحوظ جودة نماذج التعلم الآلي.