Gutenberg データ セットには、142 人の著者による 3036 冊の英語書籍が含まれています。これは、Project Gutenberg コーパスの一部であり、主に言語モデリングに使用されます。
このデータセットは、2014 年 4 月に Mycroft Artificial Intelligence によってリリースされました。主な発行者は Matthew D. Scholefield です。関連する論文には、「Complexity of Word Collocation Networks: A Preliminary Structural Analysis」が含まれます。