PDB 蛋白质结构数据集(全球版)

PDB 蛋白质结构数据集,是一个专门收录蛋白质及核酸的三维结构资料的数据库,拥有十分悠久的历史,由美国布鲁克黑文国家实验室的 Walter Hamilton 于 1971 年起开始构建收集。 PDB 数据库中信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构…

Amazon Fine Food Reviews 食品评论数据集

Amazon Fine Food Reviews 是由亚马逊的食品评论组成的数据集,其包含截止 2012 年 10 月在亚马逊网站上的 568454 条食品评论信息,其包括用户信息、评论内容、食品信息和食品评分等数据。 该数据集由 Kaggle 于 2013 年发布,相关论文有《…

Million Song Dataset 百万流行乐数据集

Million Song 数据集的核心数据是 The Echo Nest 发布的 Taste Profile 子集,它由「用户 ID,歌曲 ID,播放计数」三部分组成。 数据分为两部分:训练集包含了超过 1m 用户,完整的历史发布(可在 MSD 网站上获得);验证和测试集合包含 …

UPenn and Mayo Clinic’s Seizure Detection Challenge 颅内脑电癫痫数据集

UPenn and Mayo Clinic’s Seizure Detection Challenge Dataset 是包含癫痫患者病灶标注的数据集,其包含人类和犬类的训练及测试数据,训练数据为癫痫发作数据段标记为「Ictal」的 1 秒 EEG 剪辑、非癫痫发作数据段的「间歇…

Personalized Medicine: Redefining Cancer Treatment 癌症肿瘤基因突变解释数据集

Personalized Medicine: Redefining Cancer Treatment Dataset 是一个对癌症肿瘤基因突变解释的数据集,其包含用于训练的基因突变描述文件和对基因突变进行分类的临床证据。 该数据集由 Kaggle 于 2018 年发布,相关数据均…

Finding Lungs in CT Data – CT 影像数据集

Finding lungs in CT 是基于肺部 CT 影像分割处理的数据集,其包含一系列 CT 影像中对肺部影像的分割,并以此识别和估计肺部容积量。 该数据集包含 4 名患者的数据,以 nifti 格式的图像和分段肺面罩为主,由 Kaggle 于 2017 年发布。

My Complete Genome: 6k Base-Pairs of Phenotype SNPs – Complete Raw Data – DNA 遗传基因序列原始数据

My Complete Genome: 6k Base-Pairs of Phenotype SNPs – Complete Raw Data 是个人 DNA 遗传记性序列原始数据组成的数据集,其以 23andMe 作为 DNA 表型 SNP。 该 DNA 原始数据来源如下: 姓…

EEG Brain Wave for Confusion 额叶波动的数据集

EEG Brain Wave for Confusion Dataset 是学生观看视频时额叶波动的数据集,旨在判断大脑是否处于混乱状态。 发布者收集了 10 名大学生观看 MOOC 视频剪辑时的 EEG 信号数据,其中包含不会让学生感到困惑的在线教育视频、可能会混淆的视频两种。…

Segmenting Soft Tissue Sarcomas – A challenge to automate tumor segmentation 医学 PET-CT 图像数据集

Segmenting Soft Tissue Sarcomas Dataset 是一套医学 PET-CT 图像数据集,数据均来自于手术病理确认的软组织肉瘤,它是 TCIA 研究的预处理子集。 该数据集由 Kaggle 于 2015 年发布,相关论文有《A radiomics mo…

Data Science Bowl 2017 肺癌预测数据

Data Science Bowl 2017 是由美国国家癌症研究中心提供的肺部 CT 扫描数据,其被用于筛选肺癌并以此争取最佳治疗时间。 该数据集包含大量来自高风险患者的 CT 图像,每个图像包含具有胸腔的多个轴向切片以及可变数量的 2D 切片,后者可基于扫描患者的机器发生变化…