Reuters-21578 文本分类数据集

数据集下载 磁力链 HTTPS 下载 下载帮助

OpenBayes 注册即获得免费算力

Reuters – 21578 Dataset 是用于文本分类研究的测试集合,它是一个多类、多标签数据集,其有望在未来几年被 RCV1 取代,该数据集有 90 个类、7769 个训练文件和 3019 个测试文件,是 Reuters – 21578 基准的 ModApte 子目录。

Reuters – 21578 数据集最初由 Carnegie Group 和 Reuters 于 1987 年在开发 CONSTRUE 文本分类系统的过程中收集和标记,后期由 AT&T Labs Research 于 1997 年 9 月发布,主要发布人为 David D. Lewis,相关论文有:

《Automated Learning of Decision Rules for Text Categorization》

《Toward Language Independent Automated Learning of Text Categorization Models》

《TCS: A Shell for Content-Based Text Categorization》

《CONSTRUE/TIS: A System for Content-Based Indexing of a Database of News Stories》

2 做种 0 下载 355 已完成
文件名大小
README.md1.46 KB
README.txt1.46 KB
reuters21578.tar.gz7.77 MB