共通コーパス 共通コーパス

日期

1 个月前

机构

发布地址

huggingface.co

许可协议

非商业用途

下载帮助

Common Corpus は、2024 年に PleIAs によってリリースされた、オープンで許可された大規模なテキスト データ セットで、書籍、新聞、科学記事、政府文書、法的文書、コードなどをカバーする 5 つの多様なサブセットで構成されています。テキストの種類。 5 つのサブセットは次のとおりです。

  • オープンカルチャー: パブリック ドメインの書籍、新聞、ウィキソースのコンテンツが含まれています。
  • オープンガバメント: SEC 文書や WTO 文書などの財務文書および法的文書が含まれます。
  • オープンソース: GitHub 上の高品質なコードが含まれています。
  • オープンサイエンス: Open Alex や French Papers などの学術コンテンツが含まれます。
  • オープンウェブ: Wikipedia、YouTube Commons、Stack Exchange などのサイトのコンテンツが含まれています。

共通コーパス データは商用および非商用目的で使用でき、言語および年によるデータのフィルタリングがサポートされています。データセットからは有害性の高いコンテンツや個人を特定できる情報は削除されていますが、一部のバイアスや機密情報がまだ存在している可能性があります。データセットのリリースには詳細な技術レポートが付属しており、透明性と再現性が保証されています。 Common Corpus は、AI Alliance、Jean Zay、Nvidia Inception プログラムなどを含む複数の組織やコミュニティによってサポートされています。