HyperAI超神経

LCCC 大規模でクリーンな中国語会話コーパス

日付

1年前

サイズ

939.48 MB

組織

清華大学

公開URL

github.com

LCCC(正式名称:Large-scale Cleaned Chinese Conversation corpus)は、2020 年に清華大学とサムスン中国研究所によってリリースされました。

データセットは主に、LCCC ベース (680 万会話) と LCCC 大 (1,200 万会話) の 2 つの部分で構成されます。研究チームは、このデータセット内の対話データの品質を確保するために、厳密なデータ フィルタリング プロセスを設計しました。このデータセットは、一連のルールと、手動で注釈が付けられた 110,000 の対話ペアでトレーニングされた分類器に基づいて構築されました。研究チームがフィルタリングしたノイズには、汚い言葉、特殊文字、顔文字、文法的な文章、無関係な会話などが含まれます。クリーンなデータセットと事前トレーニングされたモデルにより、短いテキストの対話モデリングの研究が容易になります。

LCCC.torrent
シーディング 2ダウンロード中 1ダウンロード完了 129総ダウンロード数 305
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB