WikiLinks 维基百科链接数据集

WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体(或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。 数据集包括…

USPS 手写数字数据集

USPS 全称 United States Postal Service,这是一个数字识别的数据集,数据由美国邮政署自动扫描信件获得。该数据集共包含了 9,298 个 16x16 像素的灰度样本,其中训练集包含 7,291 个,数据集包含 2,007个,图像均格式居中,标准化并显…

THUCNews 新闻数据集

THUCNews数据集是根据新浪新闻2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏…

Social-Spammer 垃圾邮件数据集

Social-Spammer-Heterogeneous数据集是从名为Tagged的社交软件上收录的,它包含五百六十万的用户和八千五百万用户间的联系。数据集中的每个用户包含四个特征和一个手动输入用以鉴定是否为垃圾账号的标签分类。数据集中的每个联系则代表了两个用户间的互动,且包含一…

icwb2-data 中文分词数据集

icwb2-data数据集是由北京大学、香港城市大学、台湾CKIP, Academia Sinica及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中AS和CityU为繁体中文数据集,PK和MSR为简体中文数据集。

Social Computing Data Repository 社交网络结构数据集

Social Computing Data Repository 是一个社交网络结构数据集,其包含从 BlogCatalog、Buzznet、Delicious、Douban、Flickr、Flixter、Foursquare、Friendster、Hyves、Last.fm、L…

Amazon Product Co-purchasing Network Metadata 商品信息数据数据集

Amazon Product Co-purchasing Network MetaData 是由亚马逊官网上的商品信息数据组成的数据集,共计 548552 条,其中包含音乐 CD、DVD、录影带等,每条信息均包含名称、销售排名、相关商品、商品分类介绍和商品评论。 该数据集由斯坦福…