ICLR 2025に選出されました!ケンブリッジ大学が提案したセルコメンモデルは、空間トランスクリプトミクス解析における因果推論の識別可能性を初めて達成した。

生物学では、細胞の遺伝子発現プロファイルは、細胞の固有の特性と外部の組織微小環境の両方に関する情報をエンコードします。これら 2 つの効果の因果関係を解明することは、細胞内および細胞間の複雑な相互作用を完全に理解するために重要です。この目的のためには、強力な因果関係の解明の枠組みが必要です。
因果分離は、データ内の因果関係を明らかにすることで有用な特徴と無関係な特徴を分離し、モデルの偽の相関関係への依存を減らし、モデルの堅牢性と一般化能力を向上させることを目的とした機械学習手法です。因果分離などの機械学習理論の発展と並行して、生物学分野における技術の進歩により空間トランスクリプトミクスの発展も促進され、研究者は単一細胞の解像度で細胞の遺伝子発現と空間座標を同時に測定し、空間サンプルで遺伝子ノックアウトなどの摂動実験を大規模に実行できるようになりました。
しかし、空間トランスクリプトミクスに対する現在の計算アプローチでは、細胞レベルや組織レベルでの因果的変動のモデリングが無視されることが多い。これは、組織内の疾患状態の背後にあるメカニズムを解明するために非常に重要です。たとえば、仮想細胞モデルは、ミクロ環境とマクロ環境の変化(ドナーの年齢、細胞組織、薬物治療、gRNA による遺伝子ノックアウトなど)が遺伝子発現に与える影響を予測することができ、仮想組織モデルは、環境が単一細胞に与える影響を推定できるだけでなく、単一細胞が周囲の環境や組織全体に与える影響を推測することもできます。
これに基づいて、ケンブリッジ大学の研究チームは、Celcomen と呼ばれる仮想組織モデルを提案しました。これは本質的に、空間トランスクリプトミクスと単一細胞データにおける細胞内および細胞間の遺伝子制御の秘密を解明するための、数学的因果関係に基づく新しいグラフ ニューラル ネットワークです。研究者らは、実際の空間トランスクリプトミクスデータと自己シミュレーションされた空間トランスクリプトミクスデータの両方で遺伝子間相互作用を解明し回復するセルコメンの能力を検証しました。
関連する結果は、「空間的因果関係の解明による空間トランスクリプトミクスにおける単一細胞および組織摂動効果の推定」というタイトルで ICLR 2025 に選出されました。
研究のハイライト:
* この研究は、仮想細胞モデルを仮想組織モデルに拡張する可能性を証明している。
* この研究は、空間トランスクリプトミクス解析における因果関係を特定できる最初のモデルを提案している。
* 分離した単一細胞データと空間単一細胞データを統合して遺伝子制御を推測する

用紙のアドレス:
https://openreview.net/forum?id=Tqdsruwyac
オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
データセット: Perturbmapデータセットを使用する最初の試み
セルコメンが空間的コンテキストで摂動効果を正確に捉える有効性を実証するために、研究者らは空間トランスクリプトミクスにおける遺伝子ノックダウンを測定する生体内全トランスクリプトームデータセットでセルコメンをベンチマークしました。それはPerturbmapと呼ばれます。 Perturbmap データセットには、KP 肺がんを研究するためのマウス モデルと、さらに Jak2 または Tgfbr2 のノックアウトの可能性も含まれています。データセットは、以下に示すように、1) KP 野生型癌、2) Jak2 ノックアウト KP 癌、または 3) Tgfbr2 ノックアウト KP 癌の一部である 5 つの空間領域を病変領域として注釈付けします。

セルコメンの能力を評価する過程で、研究者が使用した胎児脾臓データセットは、 https://developmental.cellatlas.io/fetalimmune、対数正規化形式で提供されているため、対数変換とライブラリ サイズの正規化が実行されたことは明らかです。10x Genomicsのグリオーブラストーマデータセット、同じライブラリ サイズの正規化、100 万あたりのカウント数 (CPM)、および e を底とする対数変換が実行され、さらに、少なくとも 100 個の細胞で発現した遺伝子のみが保持されました。
モデルアーキテクチャ: 新しい因果分析フレームワーク Celcomen
本研究で提案されたセルコメンモデルは、ラグランジュ力学と因果推論を組み合わせることで、因果推論の識別可能性とより高いモデル解釈可能性を実現します。簡単に言えば、識別可能性とは、複数の異なる仮定やモデル設定によって同じ観察結果につながるのではなく、十分なデータと合理的な仮定が与えられた場合にモデルが因果関係を明確に識別できるかどうかを意味します。これは、空間トランスクリプトミクス研究のための新しい因果分析フレームワークを提供します。
Celcomen は、次の 3 つの基本的な仮定に基づいて構築されています。① 一次近傍間の予想される遺伝子間相関は、観測データと正確に一致する必要があります。② 同じ空間ポイント/セル内の予想される遺伝子間相関は、観測データと正確に一致する必要があります。③ 因果十分性仮定: 研究対象の遺伝子ペア間には、測定されていない共通の原因はありません。
以下に示すように:Celcomen は、推論モジュール (CCE) と生成モジュール (SCE) の 2 つの部分に分かれています。

(a) 推論モジュール(CCE):遺伝子間の関係は、空間的に分解されたトランスクリプトーム データ (空間 RNA-seq データ) から学習でき、オプションで分離した単一細胞 RNA-seq データ (分離 scRNA-seq データ) からも学習できます。空間データ内の強調表示された細胞間ペアと単一細胞 RNA-seq データ内の個々の細胞は、CCE が細胞内 (H′ab) 遺伝子間相互作用と細胞間 (Hab) 遺伝子間相互作用を区別する方法を示しています。
(b) 発電モジュール(SCE):CCE によって学習された遺伝子間の関係を活用して、細胞または遺伝子の摂動後の反事実的な組織挙動をシミュレートします。
* 反事実シナリオ: これは、さまざまな仮想条件下での生物組織の可能性のある動作を研究するために使用される方法であり、主に因果推論、介入シミュレーション、生物医学モデリングで使用されます。これは、主要な要因(遺伝子ノックアウト、薬物介入、外部環境の変化など)が変更された場合に、生物の行動が実際に観察されるものとどのように異なる可能性があるかについての仮説的なシナリオを構築することを伴います。
研究結果:セルコメンモデルは因果関係を解明するのに識別可能
研究者らは、自己矛盾のない合成データと現実世界のデータを用いた実験を通じて、因果構造の学習と因果関係の解明におけるセルコメン モデルの識別可能性を検証しました。
セルコメンは高い自己一貫性と識別性を備えている
下の図に示すように、合成データセットでは、Celcomen は推定された遺伝子間相互作用と実際のデータの間で一貫して強い一貫性を示しており、Celcomen は強い自己一貫性と識別可能性を備えていることを示しています。
* 自己一貫性: 統計、最適化、機械学習において、自己一貫性とは通常、モデルの仮定、導出、最適化プロセスが安定したソリューションに収束できることを意味します。
* 識別可能性: 因果推論モデルで観測されたデータに基づいて、因果関係のモデルパラメータまたは因果効果を一意に決定できるかどうかを指します。

研究者らはまた、セルコメン モデルを複数のヒト胎児脾臓の空間トランスクリプトーム セクションに適用することで、実際のヒト データに対するセルコメン モデルの識別可能性の保証を確認し、2 つの遺伝子間相互作用マトリックス間のスピアマン相関係数が 0.5 ~ 0.6 の範囲にあることを観察しました。さらに、捕捉された遺伝子相互作用は、既知の生物学的細胞内および細胞間プロセスに従うため、細胞内および細胞間マトリックスにおいて生物学的に妥当である。
これはセルコメンの識別可能性を実証し、理論的および合成データを超えたその暗黙の安定性と堅牢性を確認し、実際の人間のサンプルでも観察可能です。
因果関係の分離能力:セルコメンは、内因性および外因性のトランスクリプトーム変異の原因をうまく分離することができます。
次に研究者らは、細胞内および細胞間の遺伝子調節プログラムを解くセルコメンの能力(分離能力)をテストしました。研究者らは、セルコメンを実際の人間の臨床現場に適用し、下図に示すように、ヒト神経膠芽腫(脳腫瘍)の単一細胞解像度の空間トランスクリプトームデータセットを分析しました。研究者らは、セルコメンが内因性および外因性のトランスクリプトーム変異の原因をうまく解明できることを発見しました。

生体内空間反事実検証:セルコメンはランダムベースラインよりも大幅に優れたパフォーマンスを発揮
セルコメンの有効性をさらに実証するために、研究者らは生体内全トランスクリプトームデータセット Perturbmap でベンチマークテストを実施しました。結果は、すべての病変について、予測値と生体内測定値の間のスピアマン相関が 0.28 ~ 0.47 の範囲にあることを示しました。このパフォーマンスの重要性を評価するために、研究者らは、ランダムにシャッフルされたデータでセルコメンを実行したランダムベースラインとモデルを比較しました。結果は、次の図に示すように、Celcomen がランダム ベースラインよりも大幅に優れたパフォーマンスを示し、p 値は 0.0079 でした (cf)。

要約すると、本研究で提案されたモデルは、因果推論を通じてメカニズムの説明可能性を達成するための新しい道を開きます。実験で実証されているように、Celcomen モデルの因果識別可能性のおかげで、研究者はニューラル ネットワークのパラメーター値を高い精度で回復できます。セルコメン社の進歩は、例えば、病気が組織障害を引き起こす仕組みを明らかにしたり、治療のメリットに関する検証可能な仮説を促進したりするなど、生物医学分野に大きな影響を与えています。セルコメンの価値は、技術の進歩とともに成長し続け、疾患モデル化とメカニズムの理解の向上を促進します。
人工知能が空間トランスクリプトミクスの可能性を解き放つ
この研究で得られた関連結果は、空間トランスクリプトミクスの新たな発展です。空間トランスクリプトミクス技術は、近年のバイオインフォマティクス分野における大きな進歩の 1 つです。この技術は、空間的に配置された詳細な分子特性を提供することで生物医学研究のパラダイムを大きく変え、生物学研究者がこれまでにない解像度で組織の構造と機能を解明できるようにしました。
ここ数年、空間トランスクリプトミクス技術は急速な発展を遂げ、データが継続的に蓄積されてきました。これを踏まえて、2024年8月に発表された論文「ネイチャー・メソッド特集号コメント:人工知能の「鍵」を使って空間オミクスの「鍵」を開ける」では、人工知能は、空間オミクスの可能性を最大限に引き出し、複雑なデータセットの統合を促進し、新たな生物医学的洞察を発見する可能性があります。
具体的には、AI は空間トランスクリプトミクスと scRNA-seq の統合を促進し、研究者が単一細胞レベルでトランスクリプトーム全体の空間遺伝子発現プロファイルを測定できるようにします。さらに、空間オミクスと組織学的画像データを統合することで、AI は幅広いオミクス モダリティをカバーする高解像度で包括的な 3 次元空間組織マップを構築できます。利用可能なデータセットの数が増えるにつれて、生物医学研究や精密医療のタスクのために、マルチモーダル大規模言語モデル (MM-LLM) を空間オミックス、医療画像、臨床テキスト データでトレーニングできるようになります。
2023年10月中国科学院数学・システム科学研究所の張世華氏の研究グループは、Nature Computational Science に論文を発表しました。「さまざまな条件、テクノロジー、発達段階にわたる空間トランスクリプトミクスデータの統合」と題する研究論文を発表しました。この研究により、さまざまな技術、さまざまな発達時点、さまざまな病状から得られた複数の生物組織のスライスの空間トランスクリプトーム データ用の新しい統合分析ツール STAligner が確立されました。このツールは、研究者が空間トランスクリプトミクス分析を行う際に、新しい重要な生物学的洞察を発見するのに役立ちます。
*原著論文:
https://www.biorxiv.org/content/10.1101/2022.12.26.521888v1.full.pdf
空間トランスクリプトームデータ解析が直面する多面的な課題を解決するために、2024年7月に、清華大学生命科学部 張強峰准教授の研究グループ/構造生物学先端イノベーションセンター/清華大学・北京大学共同生命科学センター「細胞間相互作用を考慮した細胞埋め込みによる単一細胞解像度の空間トランスクリプトミクスデータにおける組織モジュールの発見」と題する研究論文が、Cell Systems 誌にオンラインで公開されました。本研究では、グラフオートエンコーダディープラーニングフレームワークに基づく人工知能アルゴリズム SPACE (「相互作用を考慮した」細胞埋め込みによる空間トランスクリプトミクスデータ分析) を開発しました。このアルゴリズムは、単一細胞解像度で空間トランスクリプトームデータから空間細胞タイプを識別し、組織モジュールを発見することができ、大規模な空間トランスクリプトーム研究に使用できます。
今後、研究者は AI の強力なコンピューティング能力とディープラーニング アルゴリズムを活用することで、空間トランスクリプトミクスの新たな次元を解き放ち、疾患研究、医薬品開発、個別化医療の効率を大幅に向上させ、科学者がこれまでにない精度で生物システムの空間的異質性を探索できるようにすることで、画期的な科学的発見をもたらすことが期待されています。
参考文献:
1.https://openreview.net/forum?id=Tqdsruwyac
2.https://www.thepaper.cn/newsDetail_forward_28521641
3.https://www.cas.cn/syky/202310/t20231020_4981872.shtml