Arc-Institut stellte Virtual Cell Challenge vor: Modell zur Vorhersage der Wirkung von genetischer Störung.
Die Arc Virtual Cell Challenge: Ein Überblick Das Arc Institute hat kürzlich die Virtual Cell Challenge ausgelöst. Teilnehmer sollen ein Modell trainieren, das die Auswirkungen des Ausschaltens eines Gens in einer (teilweise) unbekannten Zelltypen vorhersagen kann. Dieser Prozess wird als Kontextgeneralisierung bezeichnet. Für Ingenieure mit geringem oder keinem biologischen Hintergrund kann die Fachsprache und der erforderliche Kontext bedrohlich erscheinen. Um die Teilnahme zu fördern, wird die Herausforderung hier in einer für Ingenieure aus anderen Disziplinen zugänglicheren Form zusammengefasst. Ziel: Ein Modell trainieren, das die Wirkung des Ausschaltens eines Gens mittels CRISPR auf eine Zelle vorhersagen kann. Experimente in der Welt der Atome sind teuer, zeitaufwendig und fehleranfällig. Die Virtual Cell Challenge zielt darauf ab, Tausende von Wirkstoffkandidaten ohne Petrischale zu testen. Ein solches Modell könnte die Fortschritte in der Forschung erheblich beschleunigen, indem es den Feedback-Loop verkürzt. Trainingsdaten: Der Datensatz enthält etwa 300.000 Single-Cell-RNA-Sequenzprofile. Davon sind ca. 38.000 Zellen ungestört, d.h., kein Gen wurde mittels CRISPR ausgeschaltet. Diese Kontrollzellen sind entscheidend, da sie als Referenzpunkt dienen, um die Auswirkungen des Genausschaltens von Rauschen und Heterogenität zu trennen. Zum Beispiel zeigt das Ausschalten des Gens TMSB4X einen deutlichen Rückgang der Transkripte im Vergleich zu Kontrollzellen. Modellierung der Herausforderung: Die Herausforderung besteht darin, das beobachtete Genexpressionsprofil von gestörten Zellen zu modellieren. Formal können wir dies als: (\hat{X}p \sim \hat{T}_p(\mathcal{D}{\text{basal}}) + H(\mathcal{D}{\text{basal}}) + \varepsilon, \quad \varepsilon \sim P\varepsilon) darstellen, wobei: (\hat{X}_p) das vorhergesagte Genexpressionsprofil der gestörten Zelle ist. (\hat{T}_p) der Zustandsübergangsmodell (State Transition Model, ST) ist. (H(\mathcal{D}_{\text{basal}})) die Heterogenität der Kontrollzellen repräsentiert. (\varepsilon) den zufälligen Fehler darstellt. Der Baseline-Status: Vor der Virtual Cell Challenge veröffentlichte Arc STATE, ihr eigenes Modell zur Lösung der Aufgabe. Es besteht aus zwei Teilen: dem Zustandsübergangsmodell (ST) und dem Zustandsembeddingsmodell (SE). Das SE-Modell erstellt semantische Embeddings von Zellen, um die Generalisierbarkeit zwischen verschiedenen Zelltypen zu verbessern. Das ST-Modell simuliert die Zelle, indem es entweder ein Transkriptom eines Kontrollzells oder ein SE-Embedding zusammen mit einem One-Hot-Vektor, der das interessierende Genausschalten repräsentiert, als Eingabe verwendet. Zustandsübergangsmodell (ST): Das ST-Modell ist ein einfacher Transformer mit einem Llama-Basismodell. Es verwendet zwei unabhängige Encoder, die jeweils 4-Layer-MLPs mit GELU-Aktivierungsfunktionen sind. Wenn das Modell direkt im Genexpressionsraum arbeitet, führt es die Ausgabe durch einen gelernten Decoder. ST wird mit der Methode der maximalen Mittelwertsdiskrepanz (Maximum Mean Discrepancy, MMD) trainiert, um die Differenz zwischen zwei Wahrscheinlichkeitsverteilungen zu minimieren. Zustandsembeddingsmodell (SE): Das SE-Modell ist einem BERT-ähnlichen Modell ähnlich und wird mit einer maskeierten Vorhersageaufgabe trainiert. Jedes Gen besteht aus Exonen (proteinkodierenden Abschnitten) und Introns (nicht-proteinkodierenden Abschnitten). Die DNA wird zunächst in pre-mRNA transkribiert, gefolgt von alternativer Splicing, bei der Exone ausgewählt und Introns entfernt werden. Dies ermöglicht verschiedene Proteine (Isoforme) vom gleichen Gen. Die SE-Modell erstellt Gen-Embeddings, indem es die Aminosäuresequenzen der verschiedenen Isoforme an ESM2, einem Protein-Language-Modell von FAIR, weitergibt. Die Embeddings werden dann gemittelt, um das Gen-Embedding zu erhalten. Die Top-2048 Gene, sortiert nach ihrem Log-Fold-Expression-Level, bilden den "Zell-Satz". Zusätzlich werden "Ausdruckscodierungen" erstellt, um die Intensität der Genexpression zu berücksichtigen. Evaluierung: Verstehen, wie Ihre Abgabe bewertet wird, ist entscheidend für den Erfolg. Arc verwendet drei Evaluationsmetriken: Perturbation Discrimination, Differential Expression und Mean Average Error. Da Mean Average Error einfach und selbsterklärend ist, konzentrieren wir uns auf die ersten beiden. Perturbation Discrimination: Diese Metrik bewertet, wie gut Ihr Modell die relativen Unterschiede zwischen Genstörungen erkennen kann. Hierfür berechnet man die Manhattan-Distanzen zwischen allen beobachteten gestörten Transkriptomen im Testset (die zuvor gemessenen Werte, (y_t) und alle anderen gestörten Transkriptomen, (y_p^n)) und dem vorhergesagten Transkriptom (\hat{y}_t). Anschließend wird der Rangplatz des vorhergesagten Transkriptoms bestimmt: [ r_t = \sum_{p \neq t} \mathbf{1}{d(\hat{y}_t, y_p) < d(\hat{y}_t, y_t)} ] Dieser Wert wird dann durch die Gesamtzahl der Transkriptome normalisiert: [ \text{PDisc}_t = \frac{r_t}{T} ] Wobei 0 eine perfekte Übereinstimmung darstellt. Der gesamte Score ist der Mittelwert aller (\text{PDisc}_t)-Werte, der dann auf: [ \text{PDiscNorm} = 1 - 2\text{PDisc} ] normiert wird. Differential Expression: Diese Metrik bewertet, wie viele der tatsächlich betroffenen Gene korrekt als signifikant betroffen erkannt wurden. Zunächst berechnet man für jedes Gen einen p-Wert mithilfe eines Wilcoxon Rank-Sum Tests mit Korrektur für Bindungen. Dies wird sowohl für die vorhergesagte als auch für die beobachtete Verteilung der Genstörungen durchgeführt. Dann wird das Benjamini-Hochberg-Verfahren angewendet, um die p-Werte zu modulieren und Fehlpositivitäten zu reduzieren. Die Menge der vorhergesagten differenziell exprimierten Gene ((G_{p,pred})) wird mit der Menge der tatsächlich differenziell exprimierten Gene ((G_{p,true})) verglichen. Wenn die Größe der vorhergesagten Menge kleiner ist als die der tatsächlichen Menge, wird der Durchschnitt der Überschneidungen berechnet: [ DE_p = \frac{G_{p,pred} \cap G_{p,true}}{n_{p,true}} ] Wenn die Größe der vorhergesagten Menge größer ist, werden die meist betroffenen Gene (die "sichersten" Vorhersagen, ( \tilde{G}_{p,pred} )) ausgewählt und die Überschneidungen berechnet: [ DE_p = \frac{\tilde{G}{p,pred} \cap G{p,true}}{n_{p,true}} ] Die endgültige Metrik ist der Mittelwert aller (DE_p)-Werte. Fazit: Wenn Sie sich für diese Herausforderung interessieren, wie kann man beginnen? Zum Glück bietet Arc ein Colab-Notebook, das den gesamten Prozess des Trainings ihres STATE-Modells durchgeht. Zudem werden die STATE-Modelle bald in die Transformers-Bibliothek integriert werden. Daher kann man mit den vortrainierten Modellen beginnen, indem man folgenden Code ausführt: ```python import torch from transformers import StateEmbeddingModel model_name = "arcinstitute/SE-600M" model = StateEmbeddingModel.from_pretrained(model_name) input_ids = torch.randn((1, 1, 5120), dtype=torch.float32) mask = torch.ones((1, 1, 5120), dtype=torch.bool) mask[:, :, 2560:] = False outputs = model(input_ids, mask) ``` Viel Erfolg allen Teilnehmern! Innenansichten der Branche: Die Virtual Cell Challenge hat das Potenzial, die biomedizinische Forschung revolutionär zu verändern. Arc Institute ist bekannt für seine fortschrittlichen Ansätze in der Zellbiologie und Maschinellen Lernen. Die Veröffentlichung von STATE stellt einen wichtigen Meilenstein dar, da es Teilnehmern eine robuste Grundlage für ihre Modelle bietet. Branchenexperten erwarten, dass diese Challenge neue Methoden und Modelle hervorbringen wird, die die Entdeckung und Entwicklung von Medikamenten erheblich beschleunigen können.