HyperAIHyperAI

Command Palette

Search for a command to run...

機関書籍 1.0 書籍データセット

Discordで議論

日付

1年前

データセット構成

論文URL

arxiv.org

Institutional Books 1.0 は、ハーバード大学が 2025 年に公開する予定のパブリック ドメイン書籍の拡大中のコーパスです。関連する論文の結果は次のとおりです。機関図書 1.0: ハーバード大学図書館のコレクションから抽出した 242B トークンのデータセット。正確性と使いやすさを向上。”。 このデータセットは、主に19世紀と20世紀に出版された、254言語のパブリックドメイン書籍983,004冊で構成されています。2,420億トークン、3億8,600万ページのテキストで構成されており、オリジナル形式と後処理済みOCRエクスポート形式の両方で利用可能です。

引用

@misc{cargnelutti2025institutionalbooks10242b, タイトル={機関書籍1.0:ハーバード大学図書館のコレクションから抽出した242Bトークンデータセット、精度と使いやすさを向上} 著者={Matteo Cargnelutti、Catherine Brobston、John Hess、Jack Cushman、Kristi Mukk、Aristana Scourtas、Kyle Courtney、Greg Leppert、Amanda Watson、Martha Whitehead、Jonathan Zittrain}、 年={2025}、 eprint={2506.08300}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2506.08300}、 }

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています