مجموعة بيانات تصنيف النصوص Reuters-21578
التاريخ
الحجم
رابط النشر
الفئات
رويترز - مجموعة البيانات 21578 هي مجموعة اختبار لأبحاث تصنيف النصوص. وهي عبارة عن مجموعة بيانات متعددة الفئات والملصقات ومن المتوقع أن يتم استبدالها بـ RCV1 في السنوات القليلة القادمة. تحتوي مجموعة البيانات على 90 فئة و 7769 ملف تدريب و 3019 ملف اختبار. إنه دليل فرعي لـ ModApte لمعيار Reuters – 21578.
رويترز - 21578 تم جمع مجموعة البيانات وتصنيفها في الأصل بواسطة مجموعة كارنيجي ورويترز في عام 1987 أثناء تطوير نظام تصنيف النصوص CONSTRUE. تم إصداره لاحقًا بواسطة AT&T Labs Research في سبتمبر 1997. وكان الناشر الرئيسي هو ديفيد دي لويس. والأوراق ذات الصلة هي:
"التعلم الآلي لقواعد القرار لتصنيف النصوص"
نحو تعلم آلي مستقل عن اللغة لنماذج تصنيف النصوص
"TCS: هيكل لتصنيف النصوص بناءً على المحتوى"
"CONSTRUE/TIS: نظام لفهرسة قاعدة بيانات الأخبار بناءً على المحتوى"