HyperAIHyperAI

Command Palette

Search for a command to run...

共通コーパス 共通コーパス

Discuss on Discord

Date

1年前

Organization

License

Non-Commercial

Common Corpus は、2024 年に PleIAs によってリリースされた、オープンで許可された大規模なテキスト データ セットで、書籍、新聞、科学記事、政府文書、法的文書、コードなどをカバーする 5 つの多様なサブセットで構成されています。テキストの種類。 5 つのサブセットは次のとおりです。

  • オープンカルチャー: パブリック ドメインの書籍、新聞、ウィキソースのコンテンツが含まれています。
  • オープンガバメント: SEC 文書や WTO 文書などの財務文書および法的文書が含まれます。
  • オープンソース: GitHub 上の高品質なコードが含まれています。
  • オープンサイエンス: Open Alex や French Papers などの学術コンテンツが含まれます。
  • オープンウェブ: Wikipedia、YouTube Commons、Stack Exchange などのサイトのコンテンツが含まれています。

共通コーパス データは商用および非商用目的で使用でき、言語および年によるデータのフィルタリングがサポートされています。データセットからは有害性の高いコンテンツや個人を特定できる情報は削除されていますが、一部のバイアスや機密情報がまだ存在している可能性があります。データセットのリリースには詳細な技術レポートが付属しており、透明性と再現性が保証されています。 Common Corpus は、AI Alliance、Jean Zay、Nvidia Inception プログラムなどを含む複数の組織やコミュニティによってサポートされています。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています