Command Palette

Search for a command to run...

コロンビア大学とスタンフォード大学が連携!Squidiffはマルチシナリオのトランスクリプトームシミュレーションを可能にし、精密医療や宇宙医学の発展に貢献します。

Featured Image

細胞生物学研究において、生細胞は常に化学平衡からかけ離れた複雑な散逸系であり、外部刺激に対する細胞集団の応答は、科学者が解明に努める中核的な科学的課題です。この応答は、組織内部の不均一性と外部シグナルによって共同的に制御されるだけでなく、予測不可能な非線形動的特性を示すことも少なくありません。単一細胞シーケンシング技術は細胞の不均一な構成を偏りなく解析することを可能にしますが、刺激後のトランスクリプトーム全体の変化を正確に追跡することは依然として大きな課題に直面しています。

この限界を克服するために、科学界はこれまでscGenやCellOTといった様々な機械学習モデルを開発してきました。しかし、これらのモデルは高解像度の動的遷移を予測する性能が低く、ほとんどのモデルはタスク固有の設計に依存しているため、適用範囲が著しく制限されていました。拡散モデルの登場は、この分野に新たなブレークスルーをもたらしました。最適化されたデータを反復的に生成することで、より豊富なデータ分布特性を捉えることができるようになり、前述の問題を解決するための新たなアプローチを提供します。現在、いくつかの研究では、拡散モデルを変分オートエンコーダ(VAE)と組み合わせたり、拡散プロセスを潜在空間に実装したりすることで、高忠実度の単一細胞データの生成とモデリング効率の向上に成功しています。しかし、遺伝子摂動応答予測、薬物摂動応答予測、細胞発達軌道推論などの重要なシナリオにおける拡散モデルの応用は、未開発の領域のままです。

この文脈では、コロンビア大学、スタンフォード大学などの研究チームがSquidiff計算フレームワークを開発しました。このフレームワークは、条件付きノイズ除去拡散暗黙モデルに基づいて構築されており、分化誘導、遺伝子摂動、薬物処理下でのさまざまな細胞タイプのトランスクリプトーム応答を予測できます。その主な利点は、遺伝子編集ツールと薬物化合物からの決定的な情報を統合する能力にあります。Squidiffは幹細胞の分化予測において、過渡的な細胞状態を正確に捉えるだけでなく、非相加的な遺伝子変動の影響や細胞特異的な応答特性を特定することができます。研究チームはさらに、Squidiffを血管オルガノイド研究に適用し、様々な細胞種への放射線曝露の影響を予測し、放射線防護薬の防護効果を評価することに成功しました。

「Squidiff: 拡散モデルを用いた細胞発達と摂動への反応の予測」と題された関連研究結果が Nature Methods に掲載されました。

用紙のアドレス:
https://www.nature.com/articles/s41592-025-02877-y
弊社の公式 WeChat アカウントをフォローし、バックグラウンドで「Squidiff」と返信すると、完全な PDF を入手できます。

AIフロンティアに関するその他の論文:
https://hyper.ai/papers

データセット: 複数のシナリオを完全にカバー + 標準化された品質管理

Squidiffフレームワークのパフォーマンスを完全にトレーニングし検証するために、研究チームは、細胞分化、遺伝子変動、薬物治療、血管オルガノイドの放射線反応などの主要な研究方向を網羅した、シミュレーションデータと実際の実験データの両方を含むマルチシナリオデータセットを構築しました。すべてのデータは統一された品質管理プロセスを経て、ミトコンドリア遺伝子比が20%を超える、または遺伝子数が1,000未満の低品質細胞は除外され、低発現遺伝子は除去されました。さらに、一部のシナリオでは、二重細胞遺伝子およびストレス関連遺伝子がさらに除外されました。最後に、データセット間の比較可能性を確保するために、対数正規化を用いてシーケンス深度の差を補正しました。

シミュレーションデータに関しては、研究チームは階層的ガンマポアソン分布に基づくSplatterツールを使用して合成単一細胞RNAシーケンスデータを生成し、実際のscRNA-seqの発現異質性と分散特性をシミュレートして、追加の生物学的前処理を必要とせずにトランスクリプトーム再構築と推論におけるモデルの基本機能を検証しました。

細胞分化データは、ヒト人工多能性幹細胞(iPSC)の内胚葉への分化に関する公開データセットから取得されました。このデータセットには、0日目(iPSC状態)から3日目(定義された内胚葉状態)までの4,800個の細胞のトランスクリプトームが含まれています。モデルは、0日目と3日目のデータをトレーニングセットとして、1日目と2日目のデータをテストセットとして使用しました。上位203個の高可変遺伝子がモデリング用に選択されました。トレーニング中にガウスノイズが導入され、1,000の拡散ステップが設定されました。分化意味変数は、潜在表現の平均差を計算することで取得され、その後、線形補間を使用して0日目から3日目までの発生軌跡をシミュレートし、動的分化プロセスに対するモデルの予測能力を評価しました。

遺伝子変動データは、K562 細胞に対する CRISPR スクリーニング実験から得られました。本研究では、ZBTB25およびPTPN12遺伝子ノックアウトと野生型コントロールを含む約10,000個の細胞を対象としました。データは「PTPN12 + コントロール」、「ZBTB25 + コントロール」、「PTPN12 + ZBTB25」の3つのグループに分けられました。最初の2つのグループはトレーニングに、最後のグループはテストに使用されました。トレーニング後、遺伝子摂動に特異的な変数を抽出し、組み合わせることで、複合的な遺伝子摂動によるトランスクリプトーム変化をシミュレートし、モデルの非加法的効果を捉える能力を検証しました。

薬物処理データは複数の細胞と薬物サンプルを統合します。これには、エトポシドを含む6種類の薬剤で治療された神経膠芽腫の発現プロファイルと、薬剤併用に対するメラノーマの反応データが含まれています。トレーニング中、モデルは各薬剤の特定の摂動表現を学習し、sci-Plex3データセットから未知の薬剤サンプルを組み込みます。SMILES構造、投与量情報、化合物フィンガープリントを組み合わせることで、未知の薬剤の摂動効果の一般化予測を実現します。

血管オルガノイドのデータは、独自の実験構築に基づいています。健康なヒトiPSCから内皮細胞、壁細胞、線維芽細胞を分化誘導した。5日目に細胞に中性子線または光子線を照射し、11日目にscRNA-seqデータを収集し、72個のオルガノイドと約6万個の細胞を含むリソースライブラリを構築した。さらに、炎症性因子のELISA測定によってマルチモーダル検証を行った。モデリングでは、0日目と11日目のデータを用いてモデルを学習させ、中間時点における細胞状態を予測するための補間を行った。放射線照射およびG-CSF治療シナリオでは、内皮細胞データのみを用いて学習させ、3種類の細胞すべてについて変動したトランスクリプトームを生成した。最後に、予測結果の生物学的意義を、差次的発現解析および擬似時間解析によって検証した。

Squidiff: DDIMとセマンティックエンコーディングを統合した条件付き拡散モデル

分化、発達、遺伝子編集、薬物治療などのさまざまな摂動下でのトランスクリプトームの動的応答を正確に予測するために、研究チームは条件付き拡散モデルに基づくインテリジェントコンピューティングフレームワークであるSquidiffを開発しました。下図に示すように、このモデルは条件付きノイズ除去拡散暗黙モデル(DDIM)とセマンティックエンコーディング技術を深く統合し、「エンコーディング-拡散-デコーディング」の3段階の連携アーキテクチャを構築します。生物学的背景に適合したトランスクリプトームデータを効率的に生成できるだけでなく、潜在変数を介して細胞状態を柔軟に制御できるため、細胞分化、遺伝子撹乱、薬物治療など、様々な研究シナリオに幅広く適用できます。

Squidiff モデルアーキテクチャ図

Squidiffの中核は、セマンティックエンコーダーと条件付きDDIM拡散モジュールで構成されています。セマンティックエンコーダーは、多層パーセプトロン(MLP)を用いて単一細胞RNAシーケンスデータを低次元セマンティック空間にマッピングし、細胞タイプと摂動情報を含むセマンティック変数(Z_sem)を生成します。医薬品研究のシナリオでは、このエンコーダーは再較正された機能クラスフィンガープリント(r_FCFP)を統合し、医薬品の分子構造をセマンティック空間に埋め込まれた2,048次元ベクトルとしてエンコードします。未知の医薬品摂動を予測するために、このモデルには医薬品SMILES文字列と投与量情報の入力をサポートするアダプターモジュールも含まれており、生物学的情報と化学的情報のディープフュージョンを実現します。

条件付き DDIM モジュールは、順方向拡散 (遺伝子空間拡散) と逆方向拡散 (遺伝子空間逆方向拡散) の二重プロセス設計に従います。順方向拡散プロセスでは、元の遺伝子発現データ (x₀) が 1,000 回の反復を通じて徐々に純粋なノイズ (x₀) に変換されます。このプロセスでは、3つの典型的な細胞タイプが徐々にガウス分布に近づく一方で、Z_semは遺伝子発現における生物学的変動を効果的に捉え、潜在空間における異なる実験条件を明確に区別します。逆拡散プロセスでは、正弦波位置埋め込み(ε)を備えたノイズ予測ネットワークが使用されます。時間ステップ (t) と Z_sem を二重条件として使用し、反復的なノイズ除去を通じて x_T から生物学的に重要なトランスクリプトームが再構築され、元のトランスクリプトーム プロファイルが正常に復元されました。

モデルトレーニングでは、コア最適化目標としてノイズ予測損失に重点を置き、Adam オプティマイザー (学習率 1×10⁻⁴) を採用し、GPU アクセラレーションに依存します。時間ステップと意味変数の規制を調整することにより、モデルは細胞状態の連続的な進化をシミュレートし、動的な軌道予測をサポートします。

従来の変分オートエンコーダと比較して、Squidiff には大きな利点があります。ガウス分布の仮定を必要とせず、微細ノイズ低減によって複雑な遺伝子発現パターンを捉え、希少細胞種(<5%)の予測においてF1スコアを27%向上させました。革新的な「勾配補間」戦略を導入し、潜在空間における意味変数を線形結合することで連続的な分化経路を生成し、従来のモデルでは見逃されやすい過渡的な細胞状態(iPSC分化における中胚葉前駆細胞など)を的確に特定します。

さらに、このモデルは潜在変数を操作するための 2 つの方法を提供します。「加算」は、図 f に示すように、元の表現と摂動方向 (Δz_sem) を組み合わせて遺伝子発現分布をシフトし、摂動効果を反映します。「補間」は、図 g に示すように線形補間を使用してベクトル接続線上の中間点を取得することで連続状態を生成し、細胞タイプのスムーズな遷移を実現します。

A型細胞とB型細胞における遺伝子発現

Squidiffマルチシナリオデモンストレーション:細胞分化、摂動、放射線応答におけるトランスクリプトーム変化を正確に捉える

Squidiff のトランスクリプトーム予測機能を体系的に検証するために、研究チームは細胞分化、遺伝子および薬物の摂動、血管オルガノイドの発達、放射線損傷という 4 つの主要領域で実験検証を実施しました。

細胞分化予測においては、下図に示すように、iPSCから内胚葉への分化データセットに基づき、0日目と3日目のデータのみを用いてモデルを学習しました。分化方向は意味変数の差異を計算することで得られ、Squidiffは1日目と2日目の間の中間状態を予測することに成功しました。モデルは、多能性マーカーMMOGのダウンレギュレーション、内胚葉因子GATA6のアップレギュレーションを正確に捉え、中胚葉マーカーDBX1の一過性発現を特定しました。従来の方法と比較して、Squidiffによって生成されたトランスクリプトームデータは、実際の発生軌跡と非常に整合性の高い連続的な経路を再構築できます。

Squidiff による細胞分化の予測の概略図。

このモデルは、遺伝子や薬物の変動を予測する際に優れた性能を発揮します。K562 細胞における二重遺伝子ノックアウト実験では、Squidiff は事前の知識なしに非付加的効果を正確に予測でき、その堅牢性は既存の方法を上回っています。薬物試験において、このモデルは単剤データのみを用いて併用薬の相乗効果を予測し、パビセプトの腫瘍細胞に対する特異的効果を正確に特定することができました。さらに、薬物化合物アダプターを統合することで、未知の薬物であるSGLT1に対する予測性能は、特化型モデルに匹敵し、優れた汎化能力を示しました。

薬物の摂動を予測する Squidiff の概略図。

血管オルガノイド(BVO)に関する研究において、研究チームはiPSC誘導BVOモデルを使用して複数の中間時点での細胞の状態を予測することに成功しました。このモデルは、3つの主要な細胞種(内皮細胞、線維芽細胞、壁細胞)の分化経路を再現しただけでなく、従来の手法では捉えるのが困難であった壁細胞から内皮細胞への分化の中間状態も特定しました。遺伝子発現解析の結果、予測データに見られる特徴的な遺伝子変化は、既知の発生パターンと高い整合性を示しました。

SquidiffがBVO細胞の分化プロセスを予測

放射線障害研究において、このモデルは内皮細胞のトレーニングデータのみを用いて、様々な細胞種に対する放射線の影響を正確に予測しました。解析の結果、初期発生段階の細胞は放射線に対してより敏感であることが示され、モデルによって予測された遺伝子発現の差と関連経路は実験的に確認されました。G-CSFの保護効果の予測において、このモデルは様々な細胞種に対する薬剤の保護メカニズムを明らかにしました。具体的には、線維芽細胞における血管新生経路の活性化、内皮細胞におけるアポトーシス経路の阻害、細胞壁細胞におけるゲノム安定性の向上が挙げられます。実験的検証では、G-CSF投与後に細胞死が大幅に減少することが示され、モデルの予測の信頼性が実証されました。

ヒト多能性幹細胞からBVOを分化させるための実験手順

これらのシステム実験は、Squidiff がさまざまな生物学的シナリオにおける細胞状態の変化を正確に予測できるだけでなく、過渡状態を捉えて未知の摂動を推測し、細胞応答を予測するための強力で信頼性の高い計算ツールを提供できることを示しています。

AIを活用した単一細胞研究の新しいパラダイム

単一細胞生物学と人工知能の学際的な分野において、Squidiff に代表される拡散モデル技術のブレークスルーは、学界と産業界の共同イノベーションを推進しています。

学術研究レベルでは、世界中のトップクラスの大学のチームが、単一細胞モデリングの深さと幅広さにおいて画期的な進歩を続けています。カナダのトロント大学の研究チームは、単一細胞生物学のための初の基礎的な大規模言語モデルである scGPT を開発し、リリースしました。このモデルは、生成的な事前学習済みTransformerアーキテクチャをベースとし、51のヒト臓器/組織と441の独立した研究をカバーする3,300万以上の細胞データポイントを用いて学習されています。複数の細胞タイプと生理学的および病理学的状態を包括的にカバーし、ヒト細胞の多様性に関する豊富なアトラスを完全に提示します。

論文のタイトル:scGPT: 生成AIを用いた単一細胞マルチオミクスの基礎モデル構築に向けて
用紙のアドレス:

https://biorxiv.org/content/10.1101/2023.04.30.538439

同時に、スタンフォード大学のチームは空間次元におけるイノベーションに焦点を当て、3次元時空間モデリングフレームワークSpateoを開発しました。このフレームワークは、スケーラブルで正確なアルゴリズムに基づいて、連続した 2 次元組織スライス データから完全な 3 次元胚および臓器モデルを再構築し、単一細胞の分子特性から巨視的な胚の形態まで、多段階の空間デジタル システムを構築できます。
論文のタイトル:分子ホログラムの時空間モデリング
用紙のアドレス:

https://www.cell.com/cell/fulltext/S0092-8674(24)01159-0

ビジネス界はこれらの学術的発見を実用的なツールに変換し、医薬品開発、病気の治療、その他のシナリオにおいてその大きな価値を実証します。Google がイェール大学などの機関と共同で開発した Cell2Sentence-Scale 27B (C2S-Scale 27B) は、単一細胞解析用の基本モデルとしては世界最大規模の 1 つです。Gemmaオープンソースモデルファミリーを基盤とするこのモデルは、270億のパラメータを誇り、個々の細胞における遺伝子発現パターンの詳細な解析と、薬物介入に対する細胞反応の正確な予測を可能にします。現在、このモデルはGoogle Healthの薬物スクリーニングプラットフォームに統合されており、「Cold Tumor(冷え性腫瘍)」に対する個別化併用療法の設計を支援し、免疫療法レジメンの開発を加速させています。もうひとつの重要な実践は、非営利団体 Arc Institute と、動的な細胞応答のシミュレーションに重点を置く STATE モデルを提供する 10x Genomics などの企業とのコラボレーションから生まれます。1億7000万個の細胞の観察データと1億個の細胞の介入データを統合し、薬物治療、遺伝子編集、放射線曝露を受けた細胞のトランスクリプトーム変化の正確なシミュレーションを可能にします。

学術界による基本的な単一細胞モデルの徹底的な研究から産業界による技術の大規模な実装まで、Squidiff の拡散モデリング技術は、単一細胞研究を「細胞の状態の分析」から「細胞の運命の予測」へと推進しています。この飛躍は、医薬品開発やがん治療などの分野の進歩を加速させるだけでなく、精密医療や再生医療などの将来の医療の方向性に対する中核的な技術的サポートを提供し、生命科学における AI 主導のイノベーションの巨大な可能性を継続的に解き放ちます。

参考記事:
1.https://mp.weixin.qq.com/s/yCR_GC0Ln80st2tHcv08-Q
2.https://mp.weixin.qq.com/s/GegQB65w4nZG6ZXvnyU9dw

コロンビア大学とスタンフォード大学が連携!Squidiffはマルチシナリオのトランスクリプトームシミュレーションを可能にし、精密医療や宇宙医学の発展に貢献します。 | ニュース | HyperAI超神経