Ensemble De Données De Classification De Texte Reuters-21578
Date
Taille
URL de publication
Catégories
Reuters – L’ensemble de données 21578 est une collection de tests pour la recherche de classification de texte. Il s’agit d’un ensemble de données multi-classes et multi-étiquettes qui devrait être remplacé par RCV1 dans les prochaines années. L'ensemble de données contient 90 classes, 7769 fichiers de formation et 3019 fichiers de test. Il s’agit d’un sous-répertoire ModApte du benchmark Reuters – 21578.
Reuters – 21578 L'ensemble de données a été initialement collecté et étiqueté par Carnegie Group et Reuters en 1987 lors du développement du système de classification de texte CONSTRUE. Il a ensuite été publié par AT&T Labs Research en septembre 1997. L'éditeur principal était David D. Lewis. Les documents connexes sont :
« Apprentissage automatique des règles de décision pour la catégorisation de textes »
« Vers un apprentissage automatisé et indépendant du langage des modèles de catégorisation de textes »
« TCS : un shell pour la catégorisation de texte basée sur le contenu »
CONSTRUE/TIS : un système d'indexation d'une base de données d'articles d'actualité basé sur le contenu