HyperAIHyperAI

Command Palette

Search for a command to run...

LCCC 大規模でクリーンな中国語会話コーパス

日付

2年前

サイズ

939.48 MB

データセット構成

清華大学

公開URL

github.com

Paper URL

arxiv.org

LCCC(正式名称:Large-scale Cleaned Chinese Conversation corpus)は、2020 年に清華大学とサムスン中国研究所によってリリースされました。

データセットは主に、LCCC ベース (680 万会話) と LCCC 大 (1,200 万会話) の 2 つの部分で構成されます。研究チームは、このデータセット内の対話データの品質を確保するために、厳密なデータ フィルタリング プロセスを設計しました。このデータセットは、一連のルールと、手動で注釈が付けられた 110,000 の対話ペアでトレーニングされた分類器に基づいて構築されました。研究チームがフィルタリングしたノイズには、汚い言葉、特殊文字、顔文字、文法的な文章、無関係な会話などが含まれます。クリーンなデータセットと事前トレーニングされたモデルにより、短いテキストの対話モデリングの研究が容易になります。

LCCC.torrent
シーディング 1ダウンロード中 0完了 316総ダウンロード数 564
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LCCC 大規模でクリーンな中国語会話コーパス | データセット | HyperAI超神経