Discordで議論

日付

1年前

論文URL

タグ

自然言語処理

テキスト生成

モデル学習

Common Corpus は大規模なオープンテキストデータセットであり、関連する論文の結果は次のとおりです。共通コーパス：LLM事前トレーニングのための倫理データの最大のコレクションこのデータセットには、知的財産リスクを回避するため、著作権フリーまたは許可されたライセンスのデータのみが含まれています。これは現在、最大のオープンライセンスのテキストデータセットです。データセットには2兆トークンが含まれており、書籍、科学文献、コード、法務文書などの分野を網羅しています。主要言語は英語とフランス語ですが、100億トークンを超える8言語（ドイツ語、スペイン語、イタリア語など）と10億トークンを超える33言語も含まれています。

データセットのコアサブセット:

OpenCulture: パブリックドメインの書籍、新聞 (Wikisource、Project Gutenberg など)、OCR 修正が施された歴史文書。
OpenGovernment: 法的および行政文書 (SEC レポート、WTO 提出書類、欧州議会データなど)。
OpenSource: GitHub の高品質コード、ArmoRM ツールによって選別された上位 80% の高品質提出物。
OpenScience: 数式やグラフなどの構造化された情報を保持する OpenAlex などの学術リソース。
OpenWeb: Wikipedia、YouTube Commons、Stack Exchange などの Web テキスト。
OpenSemantic: Wikidata のセマンティックトリプルの自然言語転写。300 以上の言語をサポートします。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Discordで議論

日付

1年前

論文URL

arxiv.org

タグ

自然言語処理

テキスト生成

モデル学習

Common Corpus は大規模なオープンテキストデータセットであり、関連する論文の結果は次のとおりです。共通コーパス：LLM事前トレーニングのための倫理データの最大のコレクションこのデータセットには、知的財産リスクを回避するため、著作権フリーまたは許可されたライセンスのデータのみが含まれています。これは現在、最大のオープンライセンスのテキストデータセットです。データセットには2兆トークンが含まれており、書籍、科学文献、コード、法務文書などの分野を網羅しています。主要言語は英語とフランス語ですが、100億トークンを超える8言語（ドイツ語、スペイン語、イタリア語など）と10億トークンを超える33言語も含まれています。

データセットのコアサブセット:

OpenCulture: パブリックドメインの書籍、新聞 (Wikisource、Project Gutenberg など)、OCR 修正が施された歴史文書。
OpenGovernment: 法的および行政文書 (SEC レポート、WTO 提出書類、欧州議会データなど)。
OpenSource: GitHub の高品質コード、ArmoRM ツールによって選別された上位 80% の高品質提出物。
OpenScience: 数式やグラフなどの構造化された情報を保持する OpenAlex などの学術リソース。
OpenWeb: Wikipedia、YouTube Commons、Stack Exchange などの Web テキスト。
OpenSemantic: Wikidata のセマンティックトリプルの自然言語転写。300 以上の言語をサポートします。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています