PDB 蛋白质结构数据集,是一个专门收录蛋白质及核酸的三维结构资料的数据库,拥有十分悠久的历史,由美国布鲁克黑文国家实验室的 Walter Hamilton 于 1971 年起开始构建收集。 PDB 数据库中信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构…
分类: 预测统计
LMD-full MIDI 数据集
LMD-full数据集全称为The Lakh MIDI Dataset v0.1完整版,该数据集有超过17万个独一的MIDI文件,其中4万5千个文件匹配到了百万歌曲数据集。该数据集的目标是促进大规模音乐信息检索,包括符号(仅使用MIDI文件)和基于音频内容(使用从MIDI文件中提…
Sentiment Analysis 中文情感分析
该数据集包括了四个领域的中文评论:笔记本电脑、汽车、相机和手机,评论属于二分类任务及正面或负面。可被用作于自然语言处理中情感分类任务
Denver Police 丹佛市警局数据集
该数据集由科罗拉多州丹佛市提供,包括了过去四年及今年丹佛市警方对于行人与车辆的停靠记录。该数据集包括时间、地点、问题、描述等信息,可被用作于犯罪类研究
Denver Crime 丹佛市犯罪记录数据集
该数据集由科罗拉多州丹佛市提供,包括了过去五年中丹佛市的犯罪记录。这些数据都是基于美国国家事件报告系统(NIBRS),且数据是动态的,允许随时添加修改等操作,犯罪数据在周一至周五更新。此数据集可被用作于犯罪类研究调查。
NYC Job Postings 工作信息数据集
此数据集包含纽约市官方工作网站上提供的当前职位发布,包括对于城市员工内部发布的工作和对于大众公开发布的工作。这是纽约市主办的数据集,且每周更新一次。该数据集包括工作ID,工作机构位置名称,薪水,技能等信息。
NYS Environment 环境数据集
环境修复站点是指根据DEC补救计划之一进行修复的区域,该环境整治站点数据集是由美国纽约州发布整理,包含已被修复或正在管理的站点记录。每个站点记录包括:站点名称,分类,唯一站点代码,站点位置和站点所有者, 在现场实施的机构和工程管制以及已知或将被处置的废物记录
Peace Agreements 和平协议数据集
该数据集是爱丁堡大学PA-X和平协议数据库的副本,该数据库是从1990年至2016年1月1日的140多个进程中的1500多个和平协议的储存库。数据集内容主要包括协议文本、签署协议的方案及其他相关元素
THUCNews 新闻数据集
THUCNews数据集是根据新浪新闻2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏…
LA Traffic Collision Data 洛杉矶交通事故数据集
该数据集反映了洛杉矶市可追溯到2010年的交通事故,有洛杉矶市官方提供。具体内容包含时间、地点、犯罪码及描述、受害者相关信息等24类信息。可被用作于犯罪类问题研究
UW Madison Courses Grades UWM 课业情况数据
该数据集是由威斯康星大学麦迪逊分校提供,包括每个春季与秋季所开放的所有课程,教师,科目及相关成绩报告。此数据集中有超过9000个课程,共计3百万份成绩,数据均来源于威斯康星大学麦迪逊分校办公室。
Parkinson Classification 帕金森鉴别数据集
Parkinson's Disease Classification数据集用于检测分类帕金森疾病,数据集收集于188位患有帕金森症状的患者,年龄区间为33岁到87岁。该数据集还包括64位年龄区间41岁至82岁的健康样本
tcbb2014 药物数据集
tcbb2014数据集收集于DrugBank、KEGG Drug、DCDB和Matador,包含315种药物,250个靶点,5种药物间的相似度类别和3种靶点间的相似度类别。药物间的相似度包括化学、配体、表现、副作用和注释的相似度。靶点间的相似度包括序列、蛋白质间交互作用网和基因本…
Social-Spammer 垃圾邮件数据集
Social-Spammer-Heterogeneous数据集是从名为Tagged的社交软件上收录的,它包含五百六十万的用户和八千五百万用户间的联系。数据集中的每个用户包含四个特征和一个手动输入用以鉴定是否为垃圾账号的标签分类。数据集中的每个联系则代表了两个用户间的互动,且包含一…
IBRD Statement Of Loans 贷款数据集
该数据集由World Bank提供,包括世界性的区域信息、国家信息、贷款编码、借贷方、贷款状态及具体金额类信息。此数据集可被用于金融类问题研究