PDB 蛋白质结构数据集(全球版)

PDB 蛋白质结构数据集,是一个专门收录蛋白质及核酸的三维结构资料的数据库,拥有十分悠久的历史,由美国布鲁克黑文国家实验室的 Walter Hamilton 于 1971 年起开始构建收集。 PDB 数据库中信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构…

LMD-full MIDI 数据集

LMD-full数据集全称为The Lakh MIDI Dataset v0.1完整版,该数据集有超过17万个独一的MIDI文件,其中4万5千个文件匹配到了百万歌曲数据集。该数据集的目标是促进大规模音乐信息检索,包括符号(仅使用MIDI文件)和基于音频内容(使用从MIDI文件中提…

Denver Crime 丹佛市犯罪记录数据集

该数据集由科罗拉多州丹佛市提供,包括了过去五年中丹佛市的犯罪记录。这些数据都是基于美国国家事件报告系统(NIBRS),且数据是动态的,允许随时添加修改等操作,犯罪数据在周一至周五更新。此数据集可被用作于犯罪类研究调查。

NYS Environment 环境数据集

环境修复站点是指根据DEC补救计划之一进行修复的区域,该环境整治站点数据集是由美国纽约州发布整理,包含已被修复或正在管理的站点记录。每个站点记录包括:站点名称,分类,唯一站点代码,站点位置和站点所有者, 在现场实施的机构和工程管制以及已知或将被处置的废物记录

Peace Agreements 和平协议数据集

该数据集是爱丁堡大学PA-X和平协议数据库的副本,该数据库是从1990年至2016年1月1日的140多个进程中的1500多个和平协议的储存库。数据集内容主要包括协议文本、签署协议的方案及其他相关元素

THUCNews 新闻数据集

THUCNews数据集是根据新浪新闻2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏…

tcbb2014 药物数据集

tcbb2014数据集收集于DrugBank、KEGG Drug、DCDB和Matador,包含315种药物,250个靶点,5种药物间的相似度类别和3种靶点间的相似度类别。药物间的相似度包括化学、配体、表现、副作用和注释的相似度。靶点间的相似度包括序列、蛋白质间交互作用网和基因本…

Social-Spammer 垃圾邮件数据集

Social-Spammer-Heterogeneous数据集是从名为Tagged的社交软件上收录的,它包含五百六十万的用户和八千五百万用户间的联系。数据集中的每个用户包含四个特征和一个手动输入用以鉴定是否为垃圾账号的标签分类。数据集中的每个联系则代表了两个用户间的互动,且包含一…