Command Palette
Search for a command to run...
Breast Cancer:Multi-Modal Fusion 乳腺癌多模态融合数据集
Breast Cancer:Multi-Modal Fusion 是一个针对乳腺浸润癌(BRCA)患者构建的、已完成预处理的多模态数据集,旨在为构建多模态融合网络提供即插即用的基础,广泛应用于多模态融合建模、放射组学、生存预测及个性化治疗分析等研究场景。 该数据集严格对齐了 122 名 BRCA 患者的多源数据,所有样本均通过 TCGA Case ID 完成跨模态映射,实现了宏观医学影像(MRI)、微观数字病理学(Histopathology)、分子组学(Multi-Omics)以及临床治疗信息之间的一一对应。数据以 CSV 、病理 patch 图像及映射文件等形式组织。
数据构成
视觉模态(Vision Modality)
- MRI 扫描(mri_processed):预处理后的乳腺 MRI 影像,用于学习肿瘤结构与影像特征
- 组织病理学切片(SVS_patches):从 Whole Slide Images(WSIs)中提取的高分辨率病理切片 patch,可直接用于 CNN 、 ViT 等视觉模型训练
- 组织映射文件(MRI_and_SVS_Patches_index.json):用于建立病理 patch 与患者之间的映射关系,方便构建 PyTorch 或 TensorFlow 数据加载器 多组学数据(Multi-Omics)
- 转录组学(RNA_RAW.csv):标准化 RNA-Seq 基因表达数据
- 拷贝数变异(CNV_RAW.csv):拷贝数变异(CNV)扩增与缺失特征
- 融合组学特征(RNA_CNV_ModelReady.csv):包含 RNA 与 CNV 后的标准化特征文件,可直接作为神经网络输入
- 体细胞突变数据(Mutations_Dataset.csv):按患者聚合的体细胞突变基因列表 临床与治疗数据(Clinical & Treatment Data)
- 临床治疗数据(Clinical_Treatment_Data.csv):清洗后的临床与治疗数据文件
- 临床字段:包含人口统计学信息、生存状态(vital_status)及 TNM 病理分期等字段
- 药物编码矩阵:提供 Drug_Tamoxifen 、 Drug_Paclitaxel 等药物 one-hot 编码特征,用于治疗方案与患者预后相关性分析
Citation
The Cancer Genome Atlas Breast Invasive Carcinoma (TCGA-BRCA) Data Collection. Genomic and clinical data retrieved from the GDC Data Portal belonging to the TCGA-BRCA project