THUCNews 新闻数据集

THUCNews数据集是根据新浪新闻2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏…

Social-Spammer 垃圾邮件数据集

Social-Spammer-Heterogeneous数据集是从名为Tagged的社交软件上收录的,它包含五百六十万的用户和八千五百万用户间的联系。数据集中的每个用户包含四个特征和一个手动输入用以鉴定是否为垃圾账号的标签分类。数据集中的每个联系则代表了两个用户间的互动,且包含一…

icwb2-data 中文分词数据集

icwb2-data数据集是由北京大学、香港城市大学、台湾CKIP, Academia Sinica及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中AS和CityU为繁体中文数据集,PK和MSR为简体中文数据集。

Social Computing Data Repository 社交网络结构数据集

Social Computing Data Repository 是一个社交网络结构数据集,其包含从 BlogCatalog、Buzznet、Delicious、Douban、Flickr、Flixter、Foursquare、Friendster、Hyves、Last.fm、L…

Amazon Product Co-purchasing Network Metadata 商品信息数据数据集

Amazon Product Co-purchasing Network MetaData 是由亚马逊官网上的商品信息数据组成的数据集,共计 548552 条,其中包含音乐 CD、DVD、录影带等,每条信息均包含名称、销售排名、相关商品、商品分类介绍和商品评论。 该数据集由斯坦福…

MovieLens Dataset 电影推荐数据集

MovieLens 是一套电影推荐数据集,信息来源于网站 movielens.umn.edu,该数据集包含 138493 位用户对 27278 部电影的评分数据,共计 20000263 条,数据采集自 1995.01 - 2015.03 这段时间。 MovieLens 数据集由明…

Netflix 电影评价数据集

Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998.10 - 2005.11,其中评分以 5 分制为基准,并且用户信息已经经过脱敏处理。 该数据集来自于 Netflix Prize 比赛,其旨…

Quora Duplicate Questions 文本分类研究数据集

Quora Duplicate Questions Dataset 是用于判别文本中问题对是否重复的数据集,其被用于文本分类研究,旨在为任何人提供训练和测试语义等效模型的机会。 该数据集由超过 400,000 行潜在问题重复对组成,每行包含问题的 ID、问题的完整文本以及指示该行…