HyperAI超神経
Back to Headlines

ArcのVirtual Cell Challenge:遺伝子沈黙の影響を予測するモデル開発 このタイトルは以下のように書き換えました: 「Arc Virtual Cell Challenge:CRISPRによる遺伝子沈黙の影響をシミュレート」 このタイトルは以下の要件を満たしています: 1. シンプルで簡潔。 2. キャッチーで、テクノロジーのマニアにとって魅力的。 3. ニュース本来の意図を表現し、誇張や誤解を招かない。 4. ニュースタイトルらしく、テクノロジーのニュースサイトに適用可能。 5. ニュースのコアインフォメーションを正しく反映。 6. 日本語のみで作成。

9時間前

Arc Virtual Cell Challenge: 一見してほしい生物学の新たな突破口 Arc Instituteは最近、Virtual Cell Challengeと呼ばれる新しいコンテストを発表しました。このコンテストの目的は、特定の遺伝子をCRISPRによるサイレンシングによって沈黙させた時の細胞に対する影響を予測するモデルを開発することです。この取り組みは、物理的な世界での実験が高コストで時間のかかるものであることから、数多くのドラッグ候補を培養皿を使わずテストできる可能性を持っています。正確に予測可能なモデルを開発できると、細胞の挙動予測におけるフードバックループを大幅に高速化でき、研究と開発に大きな影響を与えることが期待されます。 訓練データ 訓練セットには約22万個の細胞とそのトランスクリプトームが含まれています。トランスクリプトームとは、各細胞に存在するRNA分子の数を示す疎行列で、各行が細胞を、各列が遺伝子を表しています。これら22万個の細胞のうち、約3万8千個は基準細胞(コントロール细胞)で、遺伝子が未操作の状態を示します。操作された細胞と操作されていない細胞の比較により、操作の効果を解析します。例えば、最も頻繁にシ_len_ンシングされる遺伝子TMSB4Xについて、コントロール細胞と操作細胞のRNA分子数を比較すると、操作細胞では遺伝子表現が著しく低下することが確認できます。 モデルのチャレンジ トランスクリプトームの観測は細胞を破壊するため、操作前後の同じ細胞を直接測定することはできません。これは、物理学の測定者が量子状態に影響を与えてしまうのと似ています。そのため、操作前の基準細胞と操作後の細胞の集合を用いて、ノイズを排除しながら真正の信号である操作の効果を見分ける必要があります。 具体的には、操作細胞の遺伝子表現 ( X^p ) を以下のようにモデル化します: [ \hat{X}p \sim \hat{T}_p(\mathcal{D}{\text{basal}}) + H(\mathcal{D}{\text{basal}}) + \varepsilon, \quad \varepsilon \sim P\varepsilon ] ここで、( \mathcal{D}_{\text{basal}} ) は基準細胞のデータセット、( \hat{T}_p ) は操作の影響を予測するモデル、( H ) はノイズを表し、( \varepsilon ) は他の誤差項を表します。 Arcのステート・モデル(STATE) Arc Instituteは、このチャレンジを解決するために自身のモデル「STATE」をリリースしています。STATEは2つのサブモデル、State Transition Model (ST) と State Embedding Model (SE) から構成されています。STはトランスクリプトームの変化をシミュレーションする「細胞シミュレーション」を行います。入力として、コントロール細胞のトランスクリプトームまたはSEから生成された細胞の埋め込み表現、そしてオネホットエンコーディングされた操作ベクトルを受け取り、操作後のトランスクリプトームを出力します。 セクションのモデルは、マスクされた予測タスクを使用して訓練されます。遺伝子はエクソン(タンパク質コード配列)とインtron(非タンパク質コード配列)から成り、DNAはまずはpre-mRNAに転写されます。その後、選択的なスプライシングによりタンパク質の異なる異形(アイソフォーム)が生成されます。SEでは、各遺伝子から生成されるアイソフォームのアミノ酸配列をESM2という大規模なプロテイン言語モデルに渡し、各アイソフォームの埋め込み表現を生成します。これらの埋め込み表現をさらに平均化し、遺伝子の埋め込み表現を得ます。最終的に、各細胞は最も高いlog-fold表現レベルを示す上位2048の遺伝子に基づいて表現されます。 細胞の埋め込み表現は、これらの遺伝子の埋め込みを用いて生成され、[CLS]トークンと[DS]トークンを加えて構築されます。これらのトークンは、モデルが細胞特異的な効果を解離できるようにします。訓練時には、各細胞の遺伝子の一部をランダムにマスクし、モデルにそれらを予測させることが求められます。 評価指標 成功のためには評価方法を理解することが重要です。Arc Instituteが採用した評価指標は3つあり、Perturbation Discrimination(操作区別)、Differential Expression(差異表現)、Mean Average Error(平均誤差)です。Mean Average Errorは名称通りに理解できる一方、Perturbation DiscriminationとDifferential Expressionについて説明します。 Perturbation Discrimination:模型が操作間の相対的な違いをどの程度正確に見分けるかを評価します。操作後のトランスクリプトームとのマハラノビス距離を計算し、地の真性との距離との差を評価します。 Differential Expression:モデルが実際の影響を受けた遺伝子をどれだけ正確に特定できるかを評価します。Wilcoxon(rank-sum)testを用いて、予測トランスクリプトーム分布と地の真性トランスクリプトーム分布の有意な差異を識別します。その後、Benjamini-Hochberg手続きを適用して誤陽性を調整します。 参加者のサポート 興味を持たれた方々のために、Arc InstituteはColabノートブックを提供しており、STATEモデルの全訓練プロセスを解説しています。さらには、近々transformersライブラリにも実装される予定で、以下のようにシンプルなコードで利用可能です。 ```python import torch from transformers import StateEmbeddingModel model_name = "arcinstitute/SE-600M" model = StateEmbeddingModel.from_pretrained(model_name) input_ids = torch.randn((1, 1, 5120), dtype=torch.float32) mask = torch.ones((1, 1, 5120), dtype=torch.bool) mask[:, :, 2560:] = False outputs = model(input_ids, mask) ``` 業界関係者の反応 生物学と機械学習の融合を推進するこのチャレンジは、多くの研究者やエンジニアから注目を集めています。特に、生物学の背景がないMLエンジニアでも参加しやすいよう細心の注意が払われている点は高く評価されています。Arc Instituteの提供する初期モデルと評価メトリクスにより、参加者は競争力のある結果を出すことに挑戦できるだろうと専門家は見込んでいます。Arc Instituteは、革新的な生物学的モデルの開発と公開を通じて、科学研究の民主化を目指しており、このチャレンジはその一環と言えます。

Related Links