HyperAI超神経

データノイズ除去/生体信号強調/ドロップアウト軽減、深層学習モデルSUICAは空間トランスクリプトームスライス内の任意の位置での遺伝子発現予測を実現します

特色图像

東京大学の鄭銀強教授らのグループとマギル大学の丁軍教授らのグループは共同で、空間トランスクリプトームデータのモデリング手法「SUICA」を提案しました。SUICAは、暗黙的ニューラル表現(INR)とグラフオートエンコーダーに基づく深層学習モデルです。SUICAは、グラフオートエンコーダーを用いて高次元空間トランスクリプトームデータの次元を削減し、暗黙的ニューラル表現を用いて空間トランスクリプトームデータの座標とそれに対応する遺伝子発現をモデル化することで、空間トランスクリプトームスライス内の任意の位置における遺伝子発現の予測を実現します。結果は、SUICA によって処理された空間トランスクリプトーム データは、より高品質、より低いノイズ、より強い生物学的信号を持つ可能性があることを示しています。

関連する結果は、「SUICA: 空間トランスクリプトミクスのための超高次元スパース暗黙的ニューラル表現の学習」というタイトルで ICML 2025 に選出されました。

用紙のアドレス:
https://go.hyper.ai/C6Zcl

焦点を当てる HyperAI スーパーニューラル WeChat公式アカウント、バックステージで「SUICA」と返信すると完全なPDFが手に入ります

AIフロンティアに関するその他の論文:
https://go.hyper.ai/owxf6

空間トランスクリプトームデータとは何ですか?

空間トランスクリプトミクス (ST) データは、同じ組織切片上の「遺伝子発現レベル」と「空間座標」を同時に記録する高次元情報マトリックスです。形態構造しか提示できない従来のパノラマ組織イメージング(WSI)や、遺伝子発現を定量化することしかできず方向性を見失う従来のトランスクリプトミクスと比較すると、空間トランスクリプトミクスは「どの遺伝子が発現しているか」と「組織内のどこに位置しているか」を結び付け、組織内の細胞状態と微小環境との相互作用の機能マップを描くことで、組織学と分子オーミクスを結びつける新しいデータ形式となります。

空間トランスクリプトミクスデータを強化する必要があるのはなぜですか?

空間トランスクリプトミクスはこれまでにない空間的に解明された分子レベルの洞察をもたらしましたが、現実世界のデータは依然として 3 つの大きなボトルネックによって制限されています。

① 解決コストの矛盾:プローブの密度が高く、シーケンス深度が高いほど、実験コストが速くなり(例:ステレオシーケンスのシーケンス実験コストは$4,000/cm²以上)、サンプルスループットが向上します。
②信号のスパース性とノイズ:各検出ポイントで捕捉されるmRNAの数は限られており、ゼロ拡張が深刻であるため、存在量の少ない遺伝子や重要な制御遺伝子を見逃しやすくなります。
③ クロスプラットフォームの異質性:異なるプラットフォームでは、プローブの物理的配置、シーケンス深度、バックグラウンドノイズに大きな違いがあり、複数のサンプルや複数の実験の統合を直接妨げます。

計算強化手法には、超解像度再構成、ディープノイズ除去、欠損値の補完などがあり、実験コストを増加することなく(またはわずかに増加させるだけで)、次の操作を実行できます。
(a)配列決定されていない部位での遺伝子発現の予測
b) 技術的な制限により検出できない真の遺伝子発現を回復し、差次的発現遺伝子および空間的に変化する遺伝子の検出感度を向上させる。
(c) 異なるプラットフォーム間で比較可能かつ共有可能な標準化された特徴表現を生成する。

これにより、細胞コミュニケーション分析、疾患ゾーニング注釈、薬物ターゲットの発見、マルチオミクス共同モデリング、AI病理支援診断のためのより正確で豊富かつスケーラブルなデータ基盤が提供され、基礎研究と臨床変革における空間トランスクリプトミクス技術の可能性が大きく広がります。

SUICA: 暗黙的ニューラル表現とグラフオートエンコーダに基づく統合モデル

暗黙的神経表現を用いた空間トランスクリプトミクスデータのモデリングの課題

空間トランスクリプトミクスデータのモデリングには、次のような複数の課題があります。

まず、元のデータは空間次元内でグリッド状に分布しています。遺伝子次元の点では、その数は数千から数万に及び、「超高次元、極めて疎、ノイズの多い」マトリックスを形成しており、高いドロップアウト率により重要な生物学的シグナルが弱まり、統計的検出力の欠如がさらに悪化しています。

第二に、既存の空間トランスクリプトミクス プラットフォームでは、解像度とコストの間に根本的なトレードオフが存在します。——プローブの密度が高くなり、シーケンスが深くなると、コストが指数関数的に上昇し、細胞レベルの解像度と大規模なサンプルサイズの両方を同時に達成することが難しくなります。

第三に、暗黙的なニューラル表現を使用して離散的な空間トランスクリプトーム ポイントを連続的な表現フィールドに補間しようとする場合、2 つの大きな技術的困難を同時に解決する必要があります。第 1 に、遺伝子表現空間の次元は従来の視覚信号の次元をはるかに超えているため、ネットワークを単純に広げたり深くしたりしても次元の呪いから逃れることは困難です。第 2 に、ゼロ拡張により入力信号の分布が非常に不均一になり、従来の INR では複雑で非線形な空間表現パターンを捉えることが困難です。

図オートエンコーダ:高次元空間におけるトランスクリプトームデータの次元削減

従来のオートエンコーダと比較して、我々はまず各空間トランスクリプトーム内のデータポイントをグラフノードとみなし、空間的な近接性に基づいて隣接行列を構築します。次に、エンコーダ内のグラフ畳み込みを用いて、元の高次元遺伝子発現データを畳み込み、局所的な空間コンテキストを表現に組み込み、低次元表現へと圧縮します。このようにして、高次元空間トランスクリプトームデータの低次元表現を学習し、グラフ畳み込みを加えることで、スパースでノイズの多い空間トランスクリプトームデータシグナルを強化することができます。

暗黙的神経表現:シーケンシングポイントの座標と遺伝子発現のマッピングを確立する

低次元表現を取得した後、暗黙的ニューラル表現ネットワークは、検出ポイントの座標を入力として受け取り、「ポイント」とそれに対応する低次元表現間のマッピングを学習します。そして、学習されたモデル予測された低次元表現はグラフオートエンコーダのデコーダー部分に送信され、座標を高次元の遺伝子発現にマッピングする機能が実現されます。

SUICAモデルアーキテクチャ図

実験的検証:SUICAはより正確で生物学的に関連性の高い予測結果を生成できる

ステレオseqマウス胚データとスライドseqマウス脳スライスデータをベンチマーク比較に使用しました。未知点予測(超解像)タスクにおいて、SUICAはFFNやSIRENなどの既存モデルや従来の暗黙的神経表現モデルを複数の主要指標で大幅に上回りました。各手法の予測効果を可視化した結果、SUICAの予測は遺伝子の発現パターンを正確に復元できるだけでなく、遺伝子の発現シグナルを増強できることが示されました。例えば、マウス胚の神経系の発達に重要な役割を果たす遺伝子であるSEPT3は、グラウンドトゥルースではシグナルが明らかでないにもかかわらず、このシグナルをうまく捉えました。

様々な手法で生成された結果をクラスタリングし、ラベル付けすることで、SUICAによって生成された細胞タイプが実際の細胞タイプに最も近いことが直感的に分かりました。さらに、SUICAによって生成された細胞タイプは、空間的に臓器や組織のより詳細な構造を保持しています。これらの結果は、SUICA が生物学的シグナルを強化し、異なる臓器や組織間の細胞状態の微妙な違いを識別する能力を持っていることを示しています。

SUICAは細胞実験データを生成する

実験的検証:SUICAは空間トランスクリプトームデータのノイズを低減し、ドロップアウト現象を軽減することができる

SUICA のノイズ除去能力 (遺伝子補完) と、ドロップアウト (シーケンス技術の制限により 0 リードの結果) から真の遺伝子発現を回復する能力を検証するために、空間トランスクリプトーム データに人工的にガウス ノイズを追加するか、遺伝子発現をランダムに 0 に設定しました。遺伝子補完実験では、データ内の遺伝子発現の 70% をランダムに 0 に設定しました。遺伝子発現ノイズ除去実験では、ノイズを追加した後の遺伝子発現分布が元の遺伝子発現分布と似ていることを確認するために、すべての負の値を 0 に設定しました。実験結果では、SUICA が複数の指標において既存の方法よりも優れていることが示され、空間トランスクリプトーム データのノイズを低減し、ドロップアウト現象を軽減する能力が証明されました。