NLPCC2016 データセットは一般的なニュース データセットとは異なり、新浪微博のより非公式なテキストを使用しています。トレーニング データとテスト データは、金融、スポーツ、エンターテイメントなど、さまざまなトピックのマイクロブログで構成されています。このデータ セットは utf-8 でエンコードされており、中国語の単語の分割タスクに使用できます。
NLPCC2016.torrent
シーディング 2ダウンロード中 0ダウンロード完了 974総ダウンロード数 2,218
NLPCC2016 データセットは一般的なニュース データセットとは異なり、新浪微博のより非公式なテキストを使用しています。トレーニング データとテスト データは、金融、スポーツ、エンターテイメントなど、さまざまなトピックのマイクロブログで構成されています。このデータ セットは utf-8 でエンコードされており、中国語の単語の分割タスクに使用できます。