NLPCC2016 データセットは一般的なニュース データセットとは異なり、新浪微博のより非公式なテキストを使用しています。トレーニング データとテスト データは、金融、スポーツ、エンターテイメントなど、さまざまなトピックのマイクロブログで構成されています。このデータ セットは utf-8 でエンコードされており、中国語の単語の分割タスクに使用できます。
NLPCC2016.torrent
シーディング 1ダウンロード中 0ダウンロード完了 1,053総ダウンロード数 2,278
NLPCC2016 データセットは一般的なニュース データセットとは異なり、新浪微博のより非公式なテキストを使用しています。トレーニング データとテスト データは、金融、スポーツ、エンターテイメントなど、さまざまなトピックのマイクロブログで構成されています。このデータ セットは utf-8 でエンコードされており、中国語の単語の分割タスクに使用できます。