HyperAI
Back to Headlines

Défi Virtuel Cellule d'Arc : Prévoir l'Impact de la Silenciation Génique avec des Modèles de Machine Learning

il y a 9 heures

Défis Cellule Virtuelle de l'Arc Institute : Guide Conçu pour les Ingénieurs ML Contexte L'Arc Institute vient de lancer le Défi Cellule Virtuelle. Ce défi vise à entraîner un modèle capable de prédire l'effet du blocage (ou silencement) d'un gène dans un type cellulaire partiellement inconnu. Cela s'appelle la contextualisation. Pour les ingénieurs en apprentissage automatique (ML) qui n'ont pas de formation en biologie, le jargon et le contexte requis peuvent paraître intimidants. Cependant, ce guide vise à rendre cette tâche accessible aux experts d'autres disciplines. Objectif Créer un modèle (probablement un réseau neuronal) capable de simuler précisément ce qui se passe dans une cellule lorsque l'on modifie un paramètre, comme le silencement d'un gène par CRISPR. L’avantage d’un tel modèle est significatif car il permettrait de tester des milliers de candidats médicamenteux sans toucher un seul échantillon de culture. Données d'entraînement Le jeu de données fourni par Arc comprend environ 300 000 profils de séquençage à l’échelle unique des cellules. Plus précisément, il comporte 220 000 cellules, pour chacune desquelles on a un transcriptome, c’est-à-dire un vecteur épars où chaque entrée représente le nombre brut de molécules d'ARN (transcrits) codées par un gène spécifique. Parmi ces cellules, environ 38 000 sont non perturbées, signifiant que aucun gène n’a été silencé par CRISPR. Ces cellules de contrôle sont essentielles car, contrairement aux méthodes classiques, la mesure du transcriptome implique la destruction de la cellule. Ainsi, elles servent de référence pour isoler les vrais effets de la perturbation des variations naturelles inhérentes à la population cellulaire. Modélisation du Défi Le problème principal est que mesurer l'état cellulaire avant et après la perturbation n'est pas possible sans destruction de la cellule. Par conséquent, on utilise des cellules contrôles non perturbées comme point de référence. Le modèle doit alors distinguer le vrai signal (l'effet de la perturbation) du bruit introduit par la hétérogénéité des cellules. Mathématiquement, l'expression génétique observée dans une cellule perturbée peut être modélisée comme suit : [ \hat{X}p \sim \hat{T}_p(\mathcal{D}{\text{basal}}) + H(\mathcal{D}{\text{basal}}) + \varepsilon, \quad \varepsilon \sim P\varepsilon ] où : - (\hat{T}_p) représente le modèle de transition d'état. - (H(\cdot)) modélise la hétérogénéité des cellules de base. - (\varepsilon) est le bruit. Baseline : STATE Avant le lancement du Défi Cellule Virtuelle, Arc a mis au point STATE, une solution basée sur deux modèles transformer pour servir de ligne de base. Ces modèles sont le State Transition Model (ST) et le State Embedding Model (SE). State Transition Model (ST) Le modèle ST est un transformer simplifié avec une architecture de type Llama. Il fonctionne comme suit : 1. Il reçoit un ensemble de transcriptomes de cellules de contrôle ou des plongements cellulaires produits par SE. 2. Il reçoit également un vecteur one-hot représentant la perturbation génétique. 3. Les deux tenseurs sont passés par des encodeurs indépendants, qui sont des perceptrons multicouches (MLP) à quatre couches avec des activations GELU. 4. La sortie est ensuite passée par un décodeur appris si le modèle produit un transcriptome complet. 5. ST est entraîné en minimisant la divergence quadratique moyenne (Maximum Mean Discrepancy). State Embedding Model (SE) Le modèle SE est inspiré de BERT et est entraîné sur une tâche de prédiction masquée. Pour comprendre comment SE fonctionne, il est utile de rappeler quelques concepts de biologie : Un gène est constitué d'exons (sections codantes en protéines) et d'introns (sections non codantes en protéines). L'ADN est transcrit en pré-ARNm, puis soumis à une splicing alternative, qui permet différentes combinaisons d'exons, créant ainsi différents isoformes de protéines. Pour produire des plongements cellulaires significatifs : 1. On obtient la séquence d'acides aminés de tous les isoformes de protéines codés par un gène. 2. Ces séquences sont alimentées à ESM2, un modèle languagique de protéine de 15 milliards de paramètres. 3. ESM2 génère un plongement pour chaque acide aminé, que l’on moyenne pondérée pour obtenir un plongement d'isoforme de protéine. 4. On moyenne pondérée ces plongements d'isoformes pour obtenir un plongement de gène. 5. Les plongements de gène sont ensuite projetés dans la dimension du modèle à l'aide d'un encodeur appris : [ \tilde{g}j = \text{SiLU}(\text{LayerNorm}(g_j \mathbf{W}_g + \mathbf{b}_g)) ] 6. Pour représenter une cellule, on prend les 2048 gènes les plus expressifs selon le niveau d'expression logarithmique, et on construit une "phrase cellulaire" en ajoutant un token [CLS] et un token [DS] : [ \tilde{\mathbf{c}}^{(i)} = \left[\mathbf{z}{\text{cls}}, \tilde{\mathbf{g}}1^{(i)}, \tilde{\mathbf{g}}_2^{(i)}, \ldots, \tilde{\mathbf{g}}_L^{(i)}, \mathbf{z}{\text{ds}}\right] \in \mathbb{R}^{(L+2) \times h} ] - (\mathbf{z}{\text{cls}}) sert de plongement cellulaire. - (\mathbf{z}{\text{ds}}) aide à "décomposer les effets spécifiques du jeu de données". 7. On masque 1280 gènes par cellule, sélectionnés pour couvrir une large gamme d'intensités d'expression, et le modèle est chargé de les prédire. Évaluations Comprendre comment votre soumission sera évaluée est crucial pour le succès. Arc a choisi trois métriques d'évaluation : Perturbation Discrimination (PD), Expression Différentielle (ED) et Erreur Quadratique Moyenne (Mean Squared Error, MSE). Nous nous concentrerons ici sur PD et ED, car MSE est assez simple et explicite. Perturbation Discrimination La métrique PD évalue la capacité du modèle à découvrir les différences relatives entre les perturbations. Elle calcule les distances de Manhattan entre la transcriptome prédite (y_t) et toutes les autres transcriptomes perturbées (y_p^n) dans l'ensemble de test, puis classe (y_t) par rapport aux autres. Le score PD normalisé est : [ \text{PDiscNorm} = 1 - 2\left(\frac{r_t}{T}\right) ] où (r_t) est le rang de (y_t) dans le classement des distances et (T) est le nombre total de transcriptomes. Expression Différentielle La métrique ED évalue la fraction des gènes réellement affectés que le modèle a correctly identifiés comme significativement affectés. Le processus est le suivant : 1. Pour chaque gène, calculer une valeur p (pp-valeur) en utilisant un test de rang de Wilcoxon avec correction des liens. 2. Appliquer la procédure de Benjamini-Hochberg pour ajuster les valeurs p et réduire les faux positifs. 3. Comparer l'ensemble prédit des gènes différentiellement exprimés (G_{p,pred}) avec l'ensemble réel (G_{p,true}) : - Si (|G_{p,pred}| < |G_{p,true}|), calculer : [ DE_p = \frac{|G_{p,pred} \cap G_{p,true}|}{|G_{p,true}|} ] - Si (|G_{p,pred}| > |G_{p,true}|), calculer : [ DE_p = \frac{|\tilde{G}{p,pred} \cap G{p,true}|}{|G_{p,true}|} ] où (\tilde{G}_{p,pred}) est le sous-ensemble des gènes les plus différenciellement exprimés prédits. 4. Prendre la moyenne de tous les scores (DE_p) pour obtenir le score final. Conclusion Ce défi est passionnant et pourrait avoir un impact majeur sur la découverte de médicaments. Fort heureusement, Arc a fourni un Colab notebook détaillant l'entraînement de leur modèle STATE. Ce notebook sert de point de départ pour tout participant et inclut des modèles préentraînés que vous pouvez utiliser immédiatement. ```python import torch from transformers import StateEmbeddingModel model_name = "arcinstitute/SE-600M" model = StateEmbeddingModel.from_pretrained(model_name) input_ids = torch.randn((1, 1, 5120), dtype=torch.float32) mask = torch.ones((1, 1, 5120), dtype=torch.bool) mask[:, :, 2560:] = False outputs = model(input_ids, mask) ``` Bon courage à tous les participants ! Ce défi est l'opportunité d'apporter une contribution importante à la recherche biotechnologique. Évaluation Professionnelle et Projet d'Arc Institute Des experts de l'industrie considèrent ce défi comme une avancée majeure. Arc Institute, un organisme de recherche interdisciplinaire, est connu pour son travail novateur à l'intersection de la biologie et de l’intelligence artificielle. Grâce à leur expérience, ils ont réussi à rassembler un ensemble de données de haute qualité et à fournir des outils puissants pour faciliter la participation. Le succès de ce défi pourrait ouvrir la voie à de nouvelles méthodes de simulation en recherche biomédicale, révolutionnant les processus de développement de médicaments.

Related Links