Common Corpus は、2024 年に PleIAs によってリリースされた、オープンで許可された大規模なテキスト データ セットで、書籍、新聞、科学記事、政府文書、法的文書、コードなどをカバーする 5 つの多様なサブセットで構成されています。テキストの種類。 5 つのサブセットは次のとおりです。
共通コーパス データは商用および非商用目的で使用でき、言語および年によるデータのフィルタリングがサポートされています。データセットからは有害性の高いコンテンツや個人を特定できる情報は削除されていますが、一部のバイアスや機密情報がまだ存在している可能性があります。データセットのリリースには詳細な技術レポートが付属しており、透明性と再現性が保証されています。 Common Corpus は、AI Alliance、Jean Zay、Nvidia Inception プログラムなどを含む複数の組織やコミュニティによってサポートされています。