HyperAIHyperAI

Command Palette

Search for a command to run...

Institutional Books 1.0 图书数据集

在 Discord 上讨论

日期

1 年前

数据集组织

论文 URL

arxiv.org

Institutional Books 1.0 是由哈佛大学于 2025 年发布一个不断增长的公有领域书籍语料库,相关论文成果为:「Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability」。 该数据集由 983,004 本公有领域书籍组成,书籍涵盖 254 种语言,主要出版于 19 世纪和 20 世纪。该数据集拥有 2420 亿 token 标记、 3.86 亿页文本,有原始和后处理的 OCR 导出两种格式。

Citation

@misc{cargnelutti2025institutionalbooks10242b, title={Institutional Books 1.0: A 242B token dataset from Harvard Library’s collections, refined for accuracy and usability}, author={Matteo Cargnelutti and Catherine Brobston and John Hess and Jack Cushman and Kristi Mukk and Aristana Scourtas and Kyle Courtney and Greg Leppert and Amanda Watson and Martha Whitehead and Jonathan Zittrain}, year={2025}, eprint={2506.08300}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.08300}, }

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供