Reuters-21578 文本分类数据集

日期

1 年前

大小

7.78 MB

机构

AT&T Labs Research

Reuters – 21578 Dataset 是用于文本分类研究的测试集合,它是一个多类、多标签数据集,其有望在未来几年被 RCV1 取代,该数据集有 90 个类、 7769 个训练文件和 3019 个测试文件,是 Reuters – 21578 基准的 ModApte 子目录。

Reuters – 21578 数据集最初由 Carnegie Group 和 Reuters 于 1987 年在开发 CONSTRUE 文本分类系统的过程中收集和标记,后期由 AT&T Labs Research 于 1997 年 9 月发布,主要发布人为 David D. Lewis,相关论文有:

《Automated Learning of Decision Rules for Text Categorization》

《Toward Language Independent Automated Learning of Text Categorization Models》

《TCS: A Shell for Content-Based Text Categorization》

《CONSTRUE/TIS: A System for Content-Based Indexing of a Database of News Stories》

reuters21578.torrent

做种 3

下载中 0

已完成 656

总下载 1,856

  • reuters21578/
    • README.md
      1.46 KB
    • README.txt
      2.92 KB
      • data/
        • reuters21578.tar.gz
          7.78 MB