CCI 中国語インターネット コーパス

下载帮助

大規模な言語モデルの急速な開発に伴い、産業界や学術界における高品質のデータセットに対する需要が高まり続けています。これらのデータセットには大量の情報が含まれている必要があるだけでなく、データセットの精度と下流のモデルやアプリケーションの安全性を確保するために、厳密にフィルタリングおよびクリーニングする必要もあります。ただし、現在業界で普及している公開データセット、特に高品質のデータセットが特に不足している中国分野では、一定の品質とセキュリティのリスクがあります。さらに、安全な中国のデータセットを構築するには多くの課題があります。したがって、厳密に選別され標準化されたデータセットを構築することは、LLM の革新と開発にとって特に重要です。

中国企業インターネット (CCI)中国本土のインターネット Web サイトからの高品質で信頼できるソースで構成されています。 CCI では、厳格なデータ クリーニングと重複排除が行われ、コンテンツ品質の観点から対象を絞った検出とフィルタリングが実行されます。データ処理ルールには次のものが含まれます。

  • ルールベースのフィルタリング: 密度ベースの抽出、キーワード フィルタリング、スパム フィルタリング、簡体字および繁体字中国語の変換など。
  • モデルベースのフィルタリング: 分類モデルをトレーニングして低品質のコンテンツをフィルタリングします。
  • 重複排除: データ セット内およびデータ セット間の重複排除。

また、事前学習データが大規模であると評価データの漏洩につながりやすいという問題を考慮し、研究チームはデータ処理段階で国内の主流の評価データセットをいくつか厳密に選別し、フィルタリングしました。

リリースされた CCI コーパス (CCI v1.0.0) のサイズは 104 GB です。データセットの全体的な期間は、2001 年 1 月から 2023 年 11 月までです。