HyperAIHyperAI

Command Palette

Search for a command to run...

Breast Cancer:Multi-Modal Fusion 乳腺癌多模态融合数据集

日期

16 小时前

发布 URL

www.kaggle.com

许可证

CC BY 4.0

Breast Cancer:Multi-Modal Fusion 是一个针对乳腺浸润癌(BRCA)患者构建的、已完成预处理的多模态数据集,旨在为构建多模态融合网络提供即插即用的基础,广泛应用于多模态融合建模、放射组学、生存预测及个性化治疗分析等研究场景。 该数据集严格对齐了 122 名 BRCA 患者的多源数据,所有样本均通过 TCGA Case ID 完成跨模态映射,实现了宏观医学影像(MRI)、微观数字病理学(Histopathology)、分子组学(Multi-Omics)以及临床治疗信息之间的一一对应。数据以 CSV 、病理 patch 图像及映射文件等形式组织。

数据构成

视觉模态(Vision Modality)

  • MRI 扫描(mri_processed):预处理后的乳腺 MRI 影像,用于学习肿瘤结构与影像特征
  • 组织病理学切片(SVS_patches):从 Whole Slide Images(WSIs)中提取的高分辨率病理切片 patch,可直接用于 CNN 、 ViT 等视觉模型训练
  • 组织映射文件(MRI_and_SVS_Patches_index.json):用于建立病理 patch 与患者之间的映射关系,方便构建 PyTorch 或 TensorFlow 数据加载器 多组学数据(Multi-Omics)
  • 转录组学(RNA_RAW.csv):标准化 RNA-Seq 基因表达数据
  • 拷贝数变异(CNV_RAW.csv):拷贝数变异(CNV)扩增与缺失特征
  • 融合组学特征(RNA_CNV_ModelReady.csv):包含 RNA 与 CNV 后的标准化特征文件,可直接作为神经网络输入
  • 体细胞突变数据(Mutations_Dataset.csv):按患者聚合的体细胞突变基因列表 临床与治疗数据(Clinical & Treatment Data)
  • 临床治疗数据(Clinical_Treatment_Data.csv):清洗后的临床与治疗数据文件
  • 临床字段:包含人口统计学信息、生存状态(vital_status)及 TNM 病理分期等字段
  • 药物编码矩阵:提供 Drug_Tamoxifen 、 Drug_Paclitaxel 等药物 one-hot 编码特征,用于治疗方案与患者预后相关性分析

Citation

The Cancer Genome Atlas Breast Invasive Carcinoma (TCGA-BRCA) Data Collection. Genomic and clinical data retrieved from the GDC Data Portal belonging to the TCGA-BRCA project

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供