Evo 2に続いて、アーク研究所は70種類の異なる細胞株を含むトレーニングデータを備えた最初の仮想細胞モデルSTATEをリリースしました。

ご存知の通り、人体は様々な種類の細胞で構成されています。免疫細胞は感染時に病原体への抵抗力を高めるために炎症反応を引き起こします。幹細胞は分化して様々な組織を生成する能力を有し、がん細胞は増殖制御シグナルを回避することで異常な増殖を実現します。これらの細胞は機能や形態が大きく異なりますが、ほぼ同一のゲノムを有しています。細胞の独自性は DNA 配列自体の違いから生じるのではなく、同じ遺伝情報をどのように制御し、使用するかによって生じます。
つまり、細胞の特性は遺伝子発現の違いから生じており、細胞の遺伝子発現パターンは、細胞の種類だけでなく、細胞の状態も決定します。したがって、遺伝子発現の変化を観察することで、細胞が健康か、炎症を起こしているか、あるいは癌であるかを判定することが可能です。これを基に、化学的または遺伝的介入を受けた細胞の転写反応を測定することで、AI モデルはさまざまな状態間での細胞の遷移軌跡を学習して予測し、さらには目に見えない介入の影響を予測することもできます。
このタイプの「仮想細胞」モデルは、医薬品開発の効率を大幅に向上させることが期待されています。——それぞれの薬剤が標的介入であるという文脈において、科学者は治療オプションをより正確にスクリーニングし、細胞の状態を病気から健康へと導きながら、副作用を軽減し、臨床的成功率を根本から向上させることができます。
今日、仮想細胞モデルが現実のものとなりました。Evoシリーズのモデルをリリースした非営利研究機関Arc Instituteは、カリフォルニア大学バークレー校やスタンフォード大学などの大学の研究チームと協力しました。幹細胞、がん細胞、免疫細胞の薬剤、サイトカイン、遺伝子介入に対する反応を予測できる仮想細胞モデル「STATE」をリリースしました。学習データは、約1億7000万個の細胞からの観察データと、70種類の細胞株を含む1億個以上の細胞からの介入データを網羅し、Arc Virtual Cell Atlasのデータを統合しています。実験結果では、Stateは介入後のトランスクリプトーム変化の予測において、現在の主流手法を大幅に上回る性能を示しました。Tahoe-100Mデータセットを用いたテストでは、介入効果の識別において50%の改善が見られ、発現レベルが異なる遺伝子の特定精度は既存モデルの2倍でした。
現在、STATE は非商用目的でオープンソース化されており、関連する結果は「State を使用して多様なコンテキストでの摂動に対する細胞応答を予測する」というタイトルのプレプリントとして公開されています。
論文リンク:https://go.hyper.ai/1UFMr
プロジェクトのオープンソースのアドレス:https://github.com/ArcInstitute/state
70の細胞株をカバーする2つのデータソースの融合
STATEは、STATE Transition(ST)とSTATE Embedding(SE)という2つのコアモジュールで構成されています。このマルチスケールフレームワークに基づいて、2種類のデータソースを統合できます。SE モデルのトレーニングには 1 億 6,700 万個のセルからなる観測データが使用され、ST モデルのトレーニングには 1 億個を超える介入セルからなるデータが使用されました。
STモデルの学習に使用した単一細胞介入データセットの詳細は、以下の図に示されています。すべてのデータセットは、19,790個のヒトタンパク質コードEnsembl遺伝子の測定値のみを保持するように選別されており、UMIの深さは合計10,000に均一に標準化されています。

で:
* Tahoe-100Mデータセット:大規模な単一細胞データセット、ペタスケールの単一細胞アトラスには 1 億のトランスクリプトーム プロファイルが含まれており、50 の癌細胞株の各細胞に対する 1,100 の小分子摂動の影響を測定しています。
タホ-100M データセットのダウンロードアドレス:
* Parse-PBMCデータセット:バイオテクノロジー企業Parse Biosciencesは、オープンソースのシングルセルRNAシーケンシング(scRNA-seq)データセットを公開しました。このデータセットは、1回の実験で1,152サンプル中の1,000万個の細胞を解析しました。このデータセットは主に、異なる条件下でのヒト末梢血単核細胞(PBMC)の遺伝子発現特性を研究するために使用されます。
パースPBMC データセットのダウンロードアドレス:
SEモデルは1億6,700万個のヒト細胞を用いて学習されました。データソースは下図に示されています。コンテキスト汎化ベンチマークにおけるデータ漏洩を防ぐため、研究者はTahoeデータセットから20個の細胞株のみを学習に使用し、残りの5個の細胞株は予備のテストセットとして保持しました。

で、Arc Institute は最近、4,000 万個を超えるヒト細胞を含む大規模なヒト単一細胞発現データセット scBaseCount をリリースしました。複数の臓器、細胞株、病態を網羅しています。本研究では、scBaseCountデータを処理する際に、細胞あたり少なくとも1,000個の非ゼロ発現値と2,000個のUMIを持つ細胞をスクリーニングしました。
STATE、Transformerに基づくマルチスケールフレームワーク
STATEは、遺伝子発現の変化、遺伝子発現の差、そして全体的な摂動効果の強さなど、摂動後の細胞の下流トランスクリプトーム反応を予測することができます。このアーキテクチャは、複数のレベルの情報を統合します。
* 分子レベル:埋め込みを使用して、実験や種をまたがる個々の遺伝子の特性を表します。
* 細胞レベル:埋め込みを使用して、個々の細胞のトランスクリプトーム状態を表します。これは、細胞の対数正規化された発現プロファイル、または STATE Embedding (SE) モデルによって生成された埋め込みのいずれかです。
* グループレベル:STATE 遷移 (ST) モデルは、細胞の集団に対する摂動の影響を学習します。
中でもSTはTransformerアーキテクチャをベースとし、自己注意メカニズムを用いて細胞群への介入による変化過程をモデル化します。各細胞は、元の遺伝子発現または埋め込みベクトルで表現できます。SEモジュールは、様々な異種データセットで事前学習されており、細胞間の発現の違いを学習し、技術的ノイズに対して堅牢で、介入反応に対して非常に敏感な発現ベクトルを生成します。自己注意メカニズムの助けを借りて、STモデルは明示的な分布仮定なしに、複雑な生物学的変動を柔軟に捉えることができます。
下の図に示すように、マルチスケール機械学習フレームワークとして、STATE は、遺伝子レベル、単一細胞レベル、細胞集団レベルなど、複数のレベルで操作できます。このうちSTモデルは、共通の共変量(摂動の種類、細胞環境、バッチなど)に基づいてグループ化された摂動を受けた細胞集団と摂動を受けていない細胞集団の集合を用いて学習することで、摂動効果を学習します。STモデルは、遺伝子発現プロファイルを直接処理することも、大規模な観測データから情報量の多い埋め込み表現を学習するSEモデルからコンパクトな細胞表現を処理することもできます。
同時に、このマルチスケール アーキテクチャにより、ST は Perturb-seq 実験をシリコで効果的にシミュレートし、発現推定、差次的発現解析、摂動効果サイズ推定などの後続の解析タスクをサポートできます。

STモデルのフレームワークは下図に示されています。入力は、摂動を受けていない細胞集団と摂動ラベルの集合であり、出力は対応する摂動を受けた細胞集団です。細胞が遺伝子発現プロファイルで表される場合、STは単一細胞レベルのトランスクリプトームを直接予測できます。一方、STATE埋め込みを入力として使用する場合、STはまず出力埋め込みを予測し、次に多層パーセプトロン(MLP)を介してトランスクリプトームにデコードします。

ST モデルのトレーニング目標は、予測された摂動細胞トランスクリプトームと実際の観測データ間の最大平均差 (MMD) 損失を最小化することです。STは細胞分布レベルで摂動効果を学習しますが、それでも各細胞における摂動後の発現プロファイルを予測します。この特性は、摂動を受けた集団における細胞の分布構造を捉える上で非常に重要です。
実験では、ある閾値内で細胞セットのサイズを大きくすることで検証ロスを大幅に削減できることが示されており、これは単一細胞をモデル化するよりも大幅に優れています。さらに、図Dに示すように、自己注意メカニズムを削除するとパフォーマンスが低下します。これは、摂動応答における細胞不均一性のモデル化において、セットに基づく柔軟な自己注意メカニズムの価値をさらに示しています。

SE モデルは ST モデルの補足です。細胞埋め込みを学習し、細胞タイプ特有の遺伝子発現パターンを最適に捉えることを目指します。下の図Aに示すように、SEはデータ量が少ない場合や実験ノイズが大きい場合に特に有効です。STと組み合わせて使用すると、SEはより滑らかな細胞状態空間を提供します。この埋め込みは、多数の観測単一細胞データベースに基づいて学習されます。これは、豊富な観測単一細胞データを間接的に使用して摂動応答予測の精度を向上させることと同等であり、特に介入データが限られている場合に有効です。

アーキテクチャの観点から見ると、SEエンコーダは密な双方向Transformerであり、学習目標は対数正規化された遺伝子発現の予測です。SEデコーダは、学習済みの細胞埋め込みとターゲット遺伝子埋め込みの組み合わせに基づいて遺伝子発現を予測する、小型で特別に設計された多層パーセプトロン(MLP)です。このアーキテクチャの非対称設計により、モデルは生物学的根拠と優れた汎化能力を備えた細胞状態を学習できます。
STATEは細胞環境全体にわたる摂動効果の予測をリードしています
研究者らは、STATEを様々なベースラインモデル(3つの機械学習モデル(CPA、scVI、scGPT)を含む)と比較し、化学、シグナル伝達、遺伝子摂動のデータセットで評価しました。STATEの評価フレームワークは、Perturb-Seq実験の3つの主要な出力カテゴリー、すなわち遺伝子発現カウント、差次的発現統計、そして摂動効果の全体的な大きさをカバーしています。
これらの側面におけるモデルのパフォーマンスを総合的に評価するために、研究者らは評価指標「Cell-Eval」を開発した。下の図Cに示すように、これらの指標は表現力と生物学的説明力の両方を備えており、相補的な評価視点を提供することができます。例えば、DEGの重複度は、予測結果を特定のパスウェイに結び付け、生物学的意義を付与するのに役立ちます。一方、摂動識別スコアは、摂動効果の微細な変化をより敏感に捉え、予測結果と実際の摂動効果の類似性を反映することができます。

具体的な評価として、摂動実験においては、モデルは異なる摂動の影響を効果的に区別できなければなりません。この目的のために、研究者らは2024年にWuらが行った摂動識別スコア評価法を改変し、摂動後の発現プロファイルの予測値と実際の摂動結果の類似性を比較することで摂動効果をランク付けする手法を用いました。その結果、Tahoe および PBMC データセットにおける STATE モデルのパフォーマンスは、それぞれ 54% および 29% 向上しました。下の図Dに示します。
遺伝子発現カウント予測の精度を直接評価するために、研究者らは観測された摂動誘発発現変化とモデル予測との間のピアソン相関係数を計算した。STATE モデルは、Tahoe データセットでは 63%、PBMC データセットでは 47%、ベースライン モデルよりも優れています。下の図Eに示します。
モデルによって予測された発現差(DE)遺伝子のp値を評価するために、研究者らはまず、実験で観測された摂動データを用いて真の有意に発現差のある遺伝子を計算し、FDR閾値を0.05に設定しました。次に、モデル予測によって生成されたp値を真の有意水準と比較し、精度再現率(PR)曲線をプロットしました。PR 曲線の下の領域 (AUPRC) を計算すると、すべてのデータセットにおいて STATE がすべてのベースライン モデルよりも常に優れていることがわかります。下の図Fに示します。

遺伝子摂動データセットにおける STATE モデルの AUPRC (適合率-再現率曲線の下の領域) は、2 位のモデルよりも 184% 高くなっています。この結果は、下の図 G に示すように、異なるデータ セット上の各モデルの PR 曲線で非常に明白です。

また、言及する価値があるのはSTATE はゼロショット予測もサポートしています。つまり、モデルのトレーニング中に摂動データが見られなかった新しいセル環境でも、下の図に示すように、摂動の影響を正確に予測できます。

さらに、STATE の実際の応用シナリオを実証するために、研究者らは、下の図 A に示すように、Tahoe-100M データセット内の 5 つの細胞株に焦点を当て、細胞タイプ特有の差次的発現を検出する能力を評価しました。

研究者らは、発現レベルが異なる遺伝子におけるSTATEと2つのベースラインモデルの予測結果の重なり具合と、対数変化のスピアマン相関係数を比較することで、細胞種特異性が強い摂動条件を特定しました。「摂動平均」ベースラインよりも性能が優れている場合、STATEが特定の細胞種に特有の摂動効果を学習していることを意味し、「環境平均」ベースラインよりも性能が優れている場合、モデルが各細胞株の平均発現レベルを単純に予測するのではなく、同じ細胞株における異なる摂動の影響を区別できることを意味します。
あらゆる妨害条件において、STATE は一貫して、差次的に発現した遺伝子の log 倍数変化の真の順序をより正確に復元するより強力な能力を示しました。これは、上の図 B に示すように、環境平均と摂動平均の 2 つのベースライン モデルよりも大幅に優れています。
要約すると、研究チームは、STATEが細胞環境の一般化タスクにおいて、ほぼ全ての指標と複数のデータセットにおいて、単純なベースライン(平均モデルや線形モデルなど)を上回る初の機械学習モデルであると提唱しました。さらに、細胞埋め込みモデルSEによって生成される埋め込みにより、新しい細胞環境において、より効果的なゼロサンプル摂動効果予測が可能になります。
非営利研究機関であるアーク研究所は、一連の重要な研究結果を発表した。
Arc Instituteは、有名なモバイル決済会社Stripeの共同創業者兼CEOのPatrick Collison氏、スタンフォード大学の生化学助教授のSilvana Konermann氏、カリフォルニア大学バークレー校の生物工学助教授のPatrick D. Hsu氏によって2021年に正式に設立されました。

設立当初、Arcは6億5000万ドルの投資を調達したが、そのうち5億ドルはCollisonからの出資だった。「億万長者が科学者の妻に研究資金の心配をさせないために金銭を支払う」というこの動きは、その年にこの分野で大きな議論を巻き起こしました。この基金は、15人のコア研究者と研究アシスタントチームに最大8年間の資金を提供します。これらの研究者は制限を受けず、複雑なヒト疾患についてあらゆる形態の研究を行うことができます。
生命科学分野における最先端の研究とイノベーションに重点を置くこの非営利研究機関は、島弧にちなんで名付けられました。島弧とは、プレートの接合部が隆起して形成された群島です。創設者は、島弧研究所を通じて、様々な機関や分野の研究者を結集し、新たなものを創造したいと願っています。そして、まさにその願いは実現しました。設立以来、島弧研究所は生命科学分野において数々の画期的な成果を上げています。
今年2月、 Arc Institute は、当初 3 億個を超える細胞データを統合した Arc Virtual Cell Atlas をリリースしました。このアトラスは、2025年2月25日にオープンソース化された2つの基本データセットを公開しました。Tahoe-100Mは、Tahoeが作成した新しいオープンソースの摂動データセットで、50種類の癌細胞株における1億個の細胞と6万件の薬物-細胞相互作用が含まれています。scBaseCountは、公開データから抽出された初のシングルセルRNAシーケンシングデータセットです。ArcはAIエージェントを活用し、公開リポジトリから21種2億件以上の細胞観察データをマイニング・処理し、標準化しました。
同年4月、10x GenomicsとUltima GenomicsはArc Instituteと提携し、Arc Virtual Cell Atlasの開発を加速します。計算可能な単一細胞測定データの収集は、10xとUltimaのテクノロジーによって強化されています。10xのChromium Flexテクノロジーを活用することで、細胞あたりのコストを最小限に抑え、最高の解像度で大規模な摂動データが生成され、生物学的AIモデルの構築に役立ちます。UltimaのUG 100シーケンシングシステムとSolarisケミストリーを活用することで、より多くのデータを低コストで生成し、UG 100 Solaris Boost(現在早期アクセス中の新しい高スループット動作モード)を使用することで、データ出力をさらに向上させます。
振り返ってみると、2024年11月、Arc Institute は、スタンフォード大学およびカリフォルニア大学バークレー校と共同で、大規模に DNA をトレーニングした初の生物学ベースのモデルである Evo を開発しました。ディープラーニングアーキテクチャを用いてDNAコーディング情報を解析し、DNA、RNA、タンパク質レベルで予測と設計が可能で、ヌクレオチドからゲノムまでの生物学的スケールをカバーしています。その核心的価値は、DNAの進化パターンの解読にあります。研究チームはこれを用いて、自然界では未知の機能を持つCRISPRシステムEvoCas9-1を設計し、わずか11種類の設計をテストしただけで成功しました。その配列は、一般的に使用されているCas9と類似した73%ですが、非常に活性が高いです。さらに、可動性遺伝要素IS200/IS605トランスポゾンの設計にも成功しました。これは、生物学分野における生成AIの基本モデルとして知られています。
2025年2月この基盤を基に、Arc Institute は NVIDIA と連携して、これまでで最大の生物学的 AI モデルである Evo 2 を開発しています。 Evo 2は、10万種以上の9兆3000億ヌクレオチドを学習しており、遺伝子配列パターンの識別、ヒトの病原性変異の正確な予測、細菌ゲノムの長さに相当する新しいゲノムの設計が可能です。技術的には、NVIDIA DGX Cloudプラットフォーム上の2,000基以上のH100 GPUを学習に使用し、StripedHyena 2アーキテクチャを採用しています。処理データ量は前身のEvo 1の30倍で、数百万のヌクレオチド配列を同時に解析できます。
さらに、2024年7月には、アークのGoodarzi研究室がGilbert研究室と共同で、新たに発見された「RNAスイッチ」を用いてmRNAが自身の発現を能動的に制御できることを発見しました。2024年6月には、アークのHsu研究室が、任意の2つのDNA配列をプログラム的に挿入、切除、または反転させることができる、初の天然RNA誘導リコンビナーゼを発見しました。これは、非コードRNAを用いて配列特異的なターゲティングとドナーDNA分子のスクリーニングを行う初のDNAリコンビナーゼです。このブリッジRNAはプログラム可能であるため、ユーザーは任意のゲノム標的配列と挿入する任意のドナーDNA分子を指定できます。
参考文献:
1.https://arcinstitute.org/news
2.https://mp.weixin.qq.com/s/THQTl2HI0mAXXwyykkQI5w