HyperAI

Discordで議論

日付

2年前

データセット構成

ライセンス

Non-Commercial

タグ

LLM

自然言語処理

コード生成

Common Corpus は、2024 年に PleIAs によってリリースされた、オープンで許可された大規模なテキストデータセットで、書籍、新聞、科学記事、政府文書、法的文書、コードなどをカバーする 5 つの多様なサブセットで構成されています。テキストの種類。 5 つのサブセットは次のとおりです。

オープンカルチャー: パブリックドメインの書籍、新聞、ウィキソースのコンテンツが含まれています。
オープンガバメント: SEC 文書や WTO 文書などの財務文書および法的文書が含まれます。
オープンソース: GitHub 上の高品質なコードが含まれています。
オープンサイエンス: Open Alex や French Papers などの学術コンテンツが含まれます。
オープンウェブ: Wikipedia、YouTube Commons、Stack Exchange などのサイトのコンテンツが含まれています。共通コーパスデータは商用および非商用目的で使用でき、言語および年によるデータのフィルタリングがサポートされています。データセットからは有害性の高いコンテンツや個人を特定できる情報は削除されていますが、一部のバイアスや機密情報がまだ存在している可能性があります。データセットのリリースには詳細な技術レポートが付属しており、透明性と再現性が保証されています。 Common Corpus は、AI Alliance、Jean Zay、Nvidia Inception プログラムなどを含む複数の組織やコミュニティによってサポートされています。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

Discordで議論

日付

2年前

データセット構成

ライセンス

Non-Commercial

タグ

LLM

自然言語処理

コード生成

オープンカルチャー: パブリックドメインの書籍、新聞、ウィキソースのコンテンツが含まれています。
オープンガバメント: SEC 文書や WTO 文書などの財務文書および法的文書が含まれます。
オープンソース: GitHub 上の高品質なコードが含まれています。
オープンサイエンス: Open Alex や French Papers などの学術コンテンツが含まれます。
オープンウェブ: Wikipedia、YouTube Commons、Stack Exchange などのサイトのコンテンツが含まれています。共通コーパスデータは商用および非商用目的で使用でき、言語および年によるデータのフィルタリングがサポートされています。データセットからは有害性の高いコンテンツや個人を特定できる情報は削除されていますが、一部のバイアスや機密情報がまだ存在している可能性があります。データセットのリリースには詳細な技術レポートが付属しており、透明性と再現性が保証されています。 Common Corpus は、AI Alliance、Jean Zay、Nvidia Inception プログラムなどを含む複数の組織やコミュニティによってサポートされています。

Nemotron Personas France（フランス合成ペルソナデータセット）

3ヶ月前

Nemotron-Math-v2 数学推論データセット

8日前

GroundingME 複雑シーン理解評価データセット

8日前

LongBench-Pro ロングコンテキスト包括的評価データセット

8日前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

AIでAIを構築

HyperAI Newsletters

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

Command Palette

共通コーパス 共通コーパス

AIでAIを構築

HyperAI Newsletters

Command Palette

共通コーパス 共通コーパス

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

共通コーパス 共通コーパス

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Math-v2 数学推論データセット

GroundingME 複雑シーン理解評価データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

共通コーパス共通コーパス

共通コーパス共通コーパス

共通コーパス共通コーパス