Command Palette
Search for a command to run...
乳がん:マルチモーダル融合データセット
乳がん:マルチモーダル融合は、浸潤性乳がん(BRCA)患者向けに構築された、前処理済みのマルチモーダルデータセットです。マルチモーダル融合ネットワーク構築のためのプラグアンドプレイ基盤を提供することを目的としており、マルチモーダル融合モデリング、ラジオミクス、生存予測、個別化治療分析などの研究シナリオで広く使用されています。 このデータセットは、122人のBRCA患者から得られた複数のソースのデータを厳密に整合させたものです。すべてのサンプルはTCGAケースIDを使用してモダリティ間でマッピングされ、肉眼的医用画像(MRI)、顕微鏡的デジタル病理(組織病理)、マルチオミクス、および臨床治療情報の間で1対1の対応関係が実現されています。データはCSVファイル、病理パッチ画像、およびマッピングファイルの形式で整理されています。
データ構成
視覚様式
- MRIスキャン(mri_processed):腫瘍の構造と画像の特徴を研究するために使用される、前処理済みの乳房MRI画像。
- 組織病理学的スライド (SVS_patches): 全スライド画像 (WSI) から抽出された高解像度の病理学的スライド パッチで、CNN や Vit などの視覚モデルのトレーニングに直接使用できます。
- 組織マッピングファイル(MRI_and_SVS_Patches_index.json)は、病変部位と患者間のマッピング関係を確立するために使用され、PyTorchまたはTensorFlowのデータローダーの構築を容易にします。 マルチオミクス
- トランスクリプトミクス(RNA_RAW.csv):標準化されたRNA-Seq遺伝子発現データ
- コピー数多型(CNV_RAW.csv):コピー数多型(CNV)の増幅および欠失特性
- 融合オミクス特徴量(RNA_CNV_ModelReady.csv):RNAおよびCNVデータを含む標準化された特徴量ファイルで、ニューラルネットワークへの入力として直接使用できます。
- 体細胞変異データ(Mutations_Dataset.csv):患者ごとに集計された体細胞変異遺伝子のリスト。 臨床および治療データ
- 臨床治療データ(Clinical_Treatment_Data.csv):クリーンアップされた臨床および治療データファイル
- 臨床項目には、人口統計情報、生存状況(vital_status)、およびTNM病理学的病期が含まれます。
- 薬剤コーディングマトリックス:治療レジメンと患者の予後との相関分析に使用される、Drug_TamoxifenやDrug_Paclitaxelなどの薬剤のワンホットコーディング機能を提供します。
引用
がんゲノムアトラス乳がん浸潤癌(TCGA-BRCA)データ収集。 TCGA-BRCAプロジェクトに属するGDCデータポータルから取得したゲノムデータおよび臨床データ