日付

2年前

データセット構成

タグ

大規模な言語モデルの急速な開発に伴い、産業界や学術界における高品質のデータセットに対する需要が高まり続けています。これらのデータセットには大量の情報が含まれている必要があるだけでなく、データセットの精度と下流のモデルやアプリケーションの安全性を確保するために、厳密にフィルタリングおよびクリーニングする必要もあります。ただし、現在業界で普及している公開データセット、特に高品質のデータセットが特に不足している中国分野では、一定の品質とセキュリティのリスクがあります。さらに、安全な中国のデータセットを構築するには多くの課題があります。したがって、厳密に選別され標準化されたデータセットを構築することは、LLM の革新と開発にとって特に重要です。 **中国企業インターネット (CCI)**中国本土のインターネット Web サイトからの高品質で信頼できるソースで構成されています。 CCI では、厳格なデータクリーニングと重複排除が行われ、コンテンツ品質の観点から対象を絞った検出とフィルタリングが実行されます。データ処理ルールには次のものが含まれます。

ルールベースのフィルタリング: 密度ベースの抽出、キーワードフィルタリング、スパムフィルタリング、簡体字および繁体字中国語の変換など。
モデルベースのフィルタリング: 分類モデルをトレーニングして低品質のコンテンツをフィルタリングします。
重複排除: データセット内およびデータセット間の重複排除。また、事前学習データが大規模であると評価データの漏洩につながりやすいという問題を考慮し、研究チームはデータ処理段階で国内の主流の評価データセットをいくつか厳密に選別し、フィルタリングしました。リリースされた CCI コーパス (CCI v1.0.0) のサイズは 104 GB です。データセットの全体的な期間は、2001 年 1 月から 2023 年 11 月までです。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

Discordで議論

日付

2年前

データセット構成

タグ

ルールベースのフィルタリング: 密度ベースの抽出、キーワードフィルタリング、スパムフィルタリング、簡体字および繁体字中国語の変換など。
モデルベースのフィルタリング: 分類モデルをトレーニングして低品質のコンテンツをフィルタリングします。
重複排除: データセット内およびデータセット間の重複排除。また、事前学習データが大規模であると評価データの漏洩につながりやすいという問題を考慮し、研究チームはデータ処理段階で国内の主流の評価データセットをいくつか厳密に選別し、フィルタリングしました。リリースされた CCI コーパス (CCI v1.0.0) のサイズは 104 GB です。データセットの全体的な期間は、2001 年 1 月から 2023 年 11 月までです。

Sutra 10B 事前学習用教育・訓練データセット

2ヶ月前

地上情報源による世界洪水イベントデータセット

3ヶ月前

CL-bench コンテキスト学習評価ベンチマークデータセット

4ヶ月前

LightOnOCR-mix-0126 テキスト転写データセット

5ヶ月前

GroundingME 複雑シーン理解評価データセット

6ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

AIでAIを構築

HyperAI Newsletters

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

Command Palette

CCI 中国語インターネット コーパス

AIでAIを構築

HyperAI Newsletters

Command Palette

CCI 中国語インターネット コーパス

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

CCI 中国語インターネット コーパス

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

関連データセット

Sutra 10B 事前学習用教育・訓練データセット

地上情報源による世界洪水イベントデータセット

CL-bench コンテキスト学習評価ベンチマークデータセット

LightOnOCR-mix-0126 テキスト転写データセット

GroundingME 複雑シーン理解評価データセット

CCI 中国語インターネットコーパス

CCI 中国語インターネットコーパス

CCI 中国語インターネットコーパス