منذ 11 أيام
مجموعة بيانات تصنيف نصوص إخبارية أمهرية
Israel Abebe Azime, Nebil Mohammed

الملخص
في معالجة اللغة الطبيعية، يُعد تصنيف النصوص أحد المشكلات الأساسية التي نسعى إلى حلها، وتمتد فوائده في تحليل اللغة إلى حد لا يمكن إنكاره. وقد جعل نقص بيانات التدريب المُصنفة هذه المهام أكثر صعوبة في اللغات منخفضة الموارد مثل اللغة الأمهارية. إن عملية جمع البيانات، وتسميتها، وتمييزها، وتحويلها إلى موارد قيّمة، ستشجع الباحثين المبتدئين، والمدارس، ومتخصصي تعلم الآلة على تطبيق نماذج التصنيف الحالية بلغتهم. وفي هذه الورقة الموجزة، نهدف إلى تقديم مجموعة بيانات تصنيف النصوص الأمهارية التي تتضمن أكثر من 50 ألف مقالة إخبارية تم تصنيفها إلى 6 فئات. وتُتاح هذه المجموعة للجميع مع أداء أساسي سهل لتحقيق أهداف تشجيع الأبحاث وتجارب الأداء الأفضل.