BookCorpus 大型书籍文本数据集

日期

4 年前

大小

2.24 GB

发布地址

github.com

许可协议

非商业用途

BookCorpus 是一个曾经流行的大型文本语料库,经常用于语句编码/解码的无监督学习。 但是原作者已不再提供 BookCorpus 的下载。

目前这个 BookCorpus 数据集大部分数据源来自 smashwords.com 的免费书籍,与原始的 BookCorpus 几乎一致

BookCorpus.torrent

做种 3

下载中 0

已完成 1,273

总下载 3,066

  • BookCorpus/
    • .DS_Store
      8 KB
    • README.md
      8.99 KB
    • README.txt
      9.98 KB
    • books1.tar.gz
      2.24 GB