NLPCC2016 新闻数据集NLPCC2016数据集与流行的新闻数据集不同,使用更多来自新浪微博的非正式文本。训练和测试数据由来自不同主题的微博组成,如金融、体育、娱乐等。该数据集为utf-8编码,可被用于中文分词任务 机构 复旦大学 大小 18 MB 发布地址 github.com 分类 文本分类、文本摘要 许可协议 其他 发布日期 3 年前 标签 个人开发者、中文、新闻、自然语言处理