Command Palette

Search for a command to run...

共通コーパス 共通コーパス

日付

1年前

組織

ライセンス

非商用

Discordコミュニティに参加

Common Corpus は、2024 年に PleIAs によってリリースされた、オープンで許可された大規模なテキスト データ セットで、書籍、新聞、科学記事、政府文書、法的文書、コードなどをカバーする 5 つの多様なサブセットで構成されています。テキストの種類。 5 つのサブセットは次のとおりです。

  • オープンカルチャー: パブリック ドメインの書籍、新聞、ウィキソースのコンテンツが含まれています。
  • オープンガバメント: SEC 文書や WTO 文書などの財務文書および法的文書が含まれます。
  • オープンソース: GitHub 上の高品質なコードが含まれています。
  • オープンサイエンス: Open Alex や French Papers などの学術コンテンツが含まれます。
  • オープンウェブ: Wikipedia、YouTube Commons、Stack Exchange などのサイトのコンテンツが含まれています。

共通コーパス データは商用および非商用目的で使用でき、言語および年によるデータのフィルタリングがサポートされています。データセットからは有害性の高いコンテンツや個人を特定できる情報は削除されていますが、一部のバイアスや機密情報がまだ存在している可能性があります。データセットのリリースには詳細な技術レポートが付属しており、透明性と再現性が保証されています。 Common Corpus は、AI Alliance、Jean Zay、Nvidia Inception プログラムなどを含む複数の組織やコミュニティによってサポートされています。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
共通コーパス 共通コーパス | データセット | HyperAI超神経