Wordsim-240 词向量数据集

wordsim-240数据集为词向量数据集,向量表征了每个词的单词的句法和语义信息,这些信息可用于解决各种NLP任务。该数据集提供了中文词汇对以及人工标注的相似性分数,是由对应的英文数据翻译至中文数据

Wordsim-297 词向量数据集

wordsim-297数据集为词向量数据集,向量表征了每个词的单词的句法和语义信息,这些信息可用于解决各种NLP任务。该数据集提供了中文词汇对以及人工标注的相似性分数,是由对应的英文数据翻译至中文数据

THUCNews 新闻数据集

THUCNews数据集是根据新浪新闻2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏…