LCCC(正式名称:Large-scale Cleaned Chinese Conversation corpus)は、2020 年に清華大学とサムスン中国研究所によってリリースされました。
データセットは主に、LCCC ベース (680 万会話) と LCCC 大 (1,200 万会話) の 2 つの部分で構成されます。研究チームは、このデータセット内の対話データの品質を確保するために、厳密なデータ フィルタリング プロセスを設計しました。このデータセットは、一連のルールと、手動で注釈が付けられた 110,000 の対話ペアでトレーニングされた分類器に基づいて構築されました。研究チームがフィルタリングしたノイズには、汚い言葉、特殊文字、顔文字、文法的な文章、無関係な会話などが含まれます。クリーンなデータセットと事前トレーニングされたモデルにより、短いテキストの対話モデリングの研究が容易になります。
LCCC.torrent
シーディング 2ダウンロード中 1ダウンロード完了 129総ダウンロード数 305