日期
大小
机构
发布地址
github.com
许可协议
其他
标签
分类
NLPCC2016 数据集与流行的新闻数据集不同,使用更多来自新浪微博的非正式文本。训练和测试数据由来自不同主题的微博组成,如金融、体育、娱乐等。该数据集为 utf-8 编码,可被用于中文分词任务