Nach Evo 2 Veröffentlichte Das Arc Institute Das Erste Virtuelle Zellmodell STATE Mit Trainingsdaten Von 70 Verschiedenen Zelllinien

Wie wir alle wissen, besteht der menschliche Körper aus verschiedenen Zelltypen: Immunzellen können bei Infektionen Entzündungsreaktionen auslösen, um Krankheitserreger abzuwehren; Stammzellen haben das Potenzial, sich zu differenzieren und verschiedene Gewebetypen zu bilden; und Krebszellen erreichen eine abnormale Vermehrung, indem sie wachstumsregulierenden Signalen ausweichen. Obwohl sich diese Zellen in Funktion und Morphologie stark unterscheiden, haben sie alle nahezu dasselbe Genom.Die Einzigartigkeit der Zellen beruht nicht auf Unterschieden in der DNA-Sequenz selbst, sondern auf der Art und Weise, wie sie dieselben genetischen Informationen regulieren und nutzen.
Mit anderen Worten: Die Eigenschaften von Zellen beruhen auf Unterschieden in der Genexpression, und das Genexpressionsmuster einer Zelle bestimmt nicht nur, zu welchem Zelltyp sie gehört, sondern auch, in welchem Zellzustand sie sich befindet. DaherDurch die Beobachtung von Veränderungen in der Genexpression kann festgestellt werden, ob eine Zelle gesund, entzündet oder krebsartig ist.Auf dieser Grundlage können KI-Modelle durch die Messung der transkriptionellen Reaktionen von Zellen bei chemischen oder genetischen Eingriffen die Übergangsverläufe von Zellen zwischen verschiedenen Zuständen erlernen und vorhersagen und sogar die Auswirkungen unsichtbarer Eingriffe vorhersagen.
Es wird erwartet, dass diese Art von „virtuellen Zellen“ die Effizienz der Arzneimittelentwicklung deutlich verbessern wird——Da jedes Medikament eine gezielte Intervention darstellt, kann es Wissenschaftlern dabei helfen, Behandlungsmöglichkeiten genauer zu prüfen, den Zellzustand von der Krankheit zur Gesundheit zu führen und gleichzeitig Nebenwirkungen zu reduzieren und die klinischen Erfolgsraten von der Quelle aus zu verbessern.
Heute ist das virtuelle Zellmodell Realität. Die gemeinnützige Forschungsorganisation Arc Institute, die die Evo-Modellreihe veröffentlicht hat, hat sich mit Forschungsteams von Universitäten wie der UC Berkeley und Stanford zusammengeschlossen.Einführung des virtuellen Zellmodells STATE, das die Reaktion von Stammzellen, Krebszellen und Immunzellen auf Medikamente, Zytokine oder genetische Eingriffe vorhersagen kann.Die Trainingsdaten umfassen Beobachtungsdaten von fast 170 Millionen Zellen und Interventionsdaten von über 100 Millionen Zellen aus 70 verschiedenen Zelllinien und integrieren Daten des Arc Virtual Cell Atlas. Experimentelle Ergebnisse zeigen, dass State die gängigen Methoden bei der Vorhersage von Transkriptomveränderungen nach Interventionen deutlich übertrifft. Im Test des Tahoe-100M-Datensatzes verbesserte es sich um 50% bei der Unterscheidung von Interventionseffekten, und seine Genauigkeit bei der Identifizierung differentiell exprimierter Gene ist doppelt so hoch wie bei bestehenden Modellen.
Derzeit ist STATE für die nichtkommerzielle Nutzung als Open Source verfügbar und die entsprechenden Ergebnisse wurden als Vorabdruck mit dem Titel „Predicting cellular responses to perturbation across diverse contexts with State“ veröffentlicht.
Link zum Artikel:https://go.hyper.ai/1UFMr
Adresse der Open Source-Projekte:https://github.com/ArcInstitute/state
Fusion zweier Datenquellen mit 70 Zelllinien
STATE besteht aus zwei Kernmodulen: STATE Transition (ST) und STATE Embedding (SE). Basierend auf diesem multiskaligen Framework kann es zwei Arten von Datenquellen integrieren:Zum Trainieren des SE-Modells wurden Beobachtungsdaten von 167 Millionen Zellen verwendet, zum Trainieren des ST-Modells Daten von mehr als 100 Millionen Interventionszellen.
Die Details des für das ST-Modelltraining verwendeten Einzelzellinterventionsdatensatzes sind in der folgenden Abbildung dargestellt. Alle Datensätze wurden geprüft, um nur die Messungen von 19.790 menschlichen proteinkodierenden Ensembl-Genen zu speichern, und sind einheitlich auf eine Gesamt-UMI-Tiefe von 10.000 standardisiert.

In:
* Tahoe-100M-Datensatz:Ein riesiger Einzelzelldatensatz, ein Petascale-Einzelzellatlas mit 100 Millionen Transkriptomprofilen, der die Auswirkungen von 1.100 Störungen durch kleine Moleküle auf jede Zelle in 50 Krebszelllinien misst.
Tahoe-100M Adresse zum Herunterladen des Datensatzes:
* Parse-PBMC-Datensatz:Das Biotechnologieunternehmen Parse Biosciences hat einen Open-Source-Datensatz zur Einzelzell-RNA-Sequenzierung (scRNA-seq) veröffentlicht, der in einem einzigen Experiment 10 Millionen Zellen aus 1.152 Proben analysierte. Er wird hauptsächlich zur Untersuchung der Genexpressionsmerkmale menschlicher peripherer mononukleärer Blutzellen (PBMC) unter verschiedenen Bedingungen verwendet.
Parse-PBMC Adresse zum Herunterladen des Datensatzes:
Das SE-Modell wurde an 167 Millionen menschlichen Zellen trainiert. Die Datenquelle ist in der folgenden Abbildung dargestellt. Um Datenverluste im Kontextgeneralisierungs-Benchmark zu vermeiden, verwendeten die Forscher im Training nur 20 Zelllinien aus dem Tahoe-Datensatz und behielten weitere 5 Zelllinien als Testsatz zurück.

In,Das Arc Institute hat vor Kurzem einen umfangreichen Datensatz zur Expression menschlicher Einzelzellen namens scBaseCount veröffentlicht, der mehr als 40 Millionen menschliche Zellen enthält.Deckt mehrere Organe, Zelllinien und pathologische Zustände ab. In dieser Studie untersuchten die Forscher bei der Verarbeitung von scBaseCount-Daten Zellen mit mindestens 1.000 Expressionswerten ungleich Null und 2.000 UMIs pro Zelle.
STATE, ein Multi-Scale-Framework basierend auf Transformer
STATE kann die nachgelagerte Transkriptomreaktion von Zellen nach einer Störung vorhersagen, einschließlich Veränderungen der Genexpression, unterschiedlich exprimierter Gene und der Stärke des Gesamtstörungseffekts. Die Architektur integriert mehrere Informationsebenen:
* Molekulare Ebene:Verwenden Sie Einbettungen, um die Eigenschaften einzelner Gene über Experimente und Arten hinweg darzustellen.
* Zelluläre Ebene:Verwenden Sie Einbettungen, um den transkriptomischen Zustand einzelner Zellen darzustellen, entweder das log-normalisierte Expressionsprofil der Zelle oder die vom STATE Embedding (SE)-Modell generierten Einbettungen.
* Gruppenebene:Das STATE Transition (ST)-Modell lernt die Auswirkungen von Störungen auf ein Ensemble von Zellen.
ST basiert auf der Transformer-Architektur und nutzt den Self-Attention-Mechanismus, um den Transformationsprozess von Interventionen in einer Zellsammlung zu modellieren. Jede Zelle kann durch die ursprüngliche Genexpression oder einen eingebetteten Vektor repräsentiert werden. Das SE-Modul ist anhand verschiedener heterogener Datensätze vortrainiert und kann die Expressionsunterschiede zwischen Zellen erlernen und expressive Vektoren generieren, die robust gegenüber technischem Rauschen und hochsensibel auf Interventionsreaktionen reagieren. Mithilfe des Self-Attention-Mechanismus kann das ST-Modell komplexe biologische Variabilität flexibel erfassen, ohne explizite Verteilungsannahmen treffen zu müssen.
Wie in der folgenden Abbildung dargestellt, handelt es sich um ein Framework für maschinelles Lernen mit mehreren Maßstäben.STATE kann auf mehreren Ebenen betrieben werden: auf der Ebene der Gene, einzelner Zellen und Zellpopulationen.Das ST-Modell lernt den Störungseffekt durch Training mit einer Sammlung gestörter und ungestörter Zellpopulationen, die unter gemeinsamen Kovariaten (wie Störungstyp, Zellumgebung und Charge) gruppiert sind. Das ST-Modell kann Genexpressionsprofile direkt oder kompakte Zelldarstellungen aus dem SE-Modell verarbeiten, das wiederum informationsreiche Einbettungsdarstellungen aus umfangreichen Beobachtungsdaten lernt.
Gleichzeitig ermöglicht diese mehrskalige Architektur ST, Perturb-seq-Experimente effektiv in silico zu simulieren und nachfolgende Analyseaufgaben wie Expressionsschätzung, differentielle Expressionsanalyse und Schätzung der Störungseffektgröße zu unterstützen.

Das ST-Modellgerüst ist in der folgenden Abbildung dargestellt. Seine Eingabe ist eine Sammlung ungestörter Zellpopulationen und Störungsbezeichnungen, seine Ausgabe sind die entsprechenden gestörten Zellpopulationen. Wenn Zellen durch Genexpressionsprofile repräsentiert werden, kann ST das Transkriptom auf Einzelzellebene direkt vorhersagen. Bei Verwendung der STATE-Einbettung als Eingabe prognostiziert ST zunächst die Ausgabeeinbettung und dekodiert diese anschließend über ein mehrschichtiges Perzeptron (MLP) in das Transkriptom.

Das Trainingsziel des ST-Modells besteht darin, den Verlust der maximalen mittleren Differenz (MMD) zwischen dem vorhergesagten gestörten Zelltranskriptom und den tatsächlich beobachteten Daten zu minimieren.Obwohl ST den Störungseffekt auf Zellverteilungsebene lernt, prognostiziert es dennoch das Expressionsprofil nach der Störung für jede einzelne Zelle. Diese Eigenschaft ist entscheidend für die Erfassung der Verteilungsstruktur von Zellen in der gestörten Population.
Experimente haben gezeigt, dass eine Vergrößerung des Zellsatzes den Validierungsverlust innerhalb eines bestimmten Schwellenwerts deutlich reduzieren kann, was deutlich besser ist als die Modellierung einer einzelnen Zelle. Darüber hinaus führt das Entfernen des Self-Attention-Mechanismus zu einer Leistungsminderung, wie in Abbildung D unten dargestellt. Dies verdeutlicht den Wert des flexiblen Self-Attention-Mechanismus basierend auf dem Satz bei der Modellierung der Zellheterogenität in der Störungsreaktion.

Das SE-Modell ist eine Ergänzung zum ST-Modell.Ziel ist es, zelluläre Einbettungen zu erlernen und zelltypspezifische Genexpressionsmuster optimal zu erfassen.Wie in Abbildung A unten dargestellt, ist SE besonders nützlich, wenn die Datenmenge gering oder das experimentelle Rauschen stark ist. In Kombination mit ST sorgt SE für einen glatteren Zellzustandsraum. Diese Einbettung wird anhand einer großen Anzahl von Beobachtungsdaten einzelner Zellen erlernt. Dies entspricht der indirekten Nutzung umfangreicher Beobachtungsdaten einzelner Zellen zur Verbesserung der Vorhersagegenauigkeit von Störungsreaktionen, insbesondere bei begrenzten Interventionsdaten.

Architektonisch gesehen ist der SE-Encoder ein dichter bidirektionaler Transformer. Das Trainingsziel ist die Vorhersage der logarithmisch normalisierten Genexpression. Der SE-Decoder ist ein kleineres und speziell entwickeltes mehrschichtiges Perzeptron (MLP), das die Genexpression basierend auf einer Kombination aus erlernten Zell- und Zielgen-Einbettungen vorhersagt. Dieses asymmetrische Design der Architektur ermöglicht es dem Modell, Zellzustände zu erlernen, die eine biologische Grundlage und eine gute Generalisierungsfähigkeit aufweisen.
STATE ist führend bei der Vorhersage von Störungseffekten in zellulären Umgebungen
Die Forscher verglichen STATE mit verschiedenen Basismodellen, darunter drei Machine-Learning-Modelle: CPA, scVI und scGPT, und evaluierten diese anhand chemischer Datensätze, Signaltransduktionsdaten und Genstörungsdaten. Der Evaluierungsrahmen deckt die drei wichtigsten Ausgabekategorien von Perturb-Seq-Experimenten ab: Genexpressionszählungen, Statistiken zur differentiellen Expression und das Gesamtausmaß des Störungseffekts.
Um die Leistung des Modells in diesen Dimensionen umfassend zu bewerten,Die Forscher entwickelten eine Reihe von Bewertungsindikatoren, Cell-Eval,Wie in Abbildung C unten dargestellt, sind diese Indikatoren sowohl aussagekräftig als auch biologisch erklärend und können ergänzende Bewertungsperspektiven bieten. Beispielsweise hilft der Überlappungsgrad der DEGs, die prognostizierten Ergebnisse bestimmten Pfaden zuzuordnen und ihnen biologische Bedeutung zu verleihen. Der Störungsdiskriminierungswert hingegen kann die feinkörnigen Veränderungen des Störungseffekts sensibler erfassen und die Ähnlichkeit zwischen den prognostizierten Ergebnissen und dem tatsächlichen Störungseffekt widerspiegeln.

Bei der spezifischen Bewertung von Störungsexperimenten muss das Modell die Auswirkungen verschiedener Störungen effektiv unterscheiden können. Zu diesem Zweck verwendeten die Forscher eine von Wu et al. im Jahr 2024 adaptierte Bewertungsmethode für Störungsdiskriminierungsscores. Diese Methode bewertet die Störungseffekte durch Vergleich der Ähnlichkeit zwischen dem vorhergesagten Expressionsprofil nach der Störung und den tatsächlichen Störungsergebnissen. Die Ergebnisse zeigen, dassDie Leistung des STATE-Modells in den Tahoe- und PBMC-Datensätzen verbesserte sich um 54% bzw. 29%.Wie in Abbildung D unten gezeigt.
Um die Genauigkeit der Vorhersagen zur Genexpression direkt zu beurteilen, berechneten die Forscher den Pearson-Korrelationskoeffizienten zwischen den beobachteten, durch Störungen hervorgerufenen Expressionsänderungen und den Modellvorhersagen.Das STATE-Modell übertrifft das Basismodell im Tahoe-Datensatz um 63% und im PBMC-Datensatz um 47%.Wie in Abbildung E unten gezeigt.
Um die vom Modell vorhergesagten p-Werte der differentiell exprimierten (DE) Gene zu ermitteln, berechneten die Forscher zunächst die tatsächlich signifikant differentiell exprimierten Gene anhand der im Experiment beobachteten Störungsdaten und setzten den FDR-Schwellenwert auf 0,05. Die durch die Modellvorhersagen generierten p-Werte wurden anschließend mit dem tatsächlichen Signifikanzniveau verglichen und die Präzisions-Recall-Kurve (PR) erstellt.Durch Berechnung der Fläche unter der PR-Kurve (AUPRC) lässt sich feststellen, dass STATE bei allen Datensätzen durchgängig besser abschneidet als alle Basismodelle.Wie in Abbildung F unten gezeigt.

Die AUPRC (Fläche unter der Präzisions-Recall-Kurve) des STATE-Modells im Genstörungsdatensatz ist 184% höher als die des zweitplatzierten Modells.Dieses Ergebnis ist in den PR-Kurven jedes Modells auf unterschiedlichen Datensätzen sehr deutlich, wie in Abbildung G unten dargestellt.

Erwähnenswert ist auch, dassSTATE unterstützt auch die Zero-Shot-Vorhersage.Das heißt, selbst in einer neuen Zellumgebung, in der während des Modelltrainings keine Störungsdaten gesehen wurden, kann der Störungseffekt genau vorhergesagt werden, wie in der folgenden Abbildung gezeigt.

Um die praktischen Anwendungsszenarien von STATE zu demonstrieren, bewerteten die Forscher außerdem dessen Fähigkeit, zelltypspezifische differentielle Expression zu erkennen, wobei sie sich auf fünf Zelllinien im Tahoe-100M-Datensatz konzentrierten, wie in Abbildung A unten dargestellt.

Die Forscher identifizierten Störungsbedingungen mit starker Zelltypspezifität, indem sie die Überlappung der Vorhersageergebnisse von STATE und den beiden Basismodellen in unterschiedlich exprimierten Genen sowie den Spearman-Korrelationskoeffizienten der logarithmischen Veränderung verglichen. Liegt die Leistung über dem Basiswert des „Störungsmittelwerts“, bedeutet dies, dass STATE die für einen bestimmten Zelltyp spezifischen Störungseffekte gelernt hat; liegt sie über dem Basiswert des „Umweltmittelwerts“, bedeutet dies, dass das Modell die Auswirkungen verschiedener Störungen in derselben Zelllinie unterscheiden kann, anstatt lediglich das durchschnittliche Expressionsniveau jeder Zelllinie vorherzusagen.
Unter allen StörungsbedingungenSTATE zeigte durchweg eine stärkere Fähigkeit, die wahre Reihenfolge der Log-Faltungsänderung unterschiedlich exprimierter Gene genauer wiederherzustellen.Es ist deutlich besser als die beiden Basismodelle des Umweltmittelwerts und des Störungsmittelwerts, wie in Abbildung B oben dargestellt.
Zusammenfassend stellte das Forschungsteam fest, dass STATE das erste maschinelle Lernmodell ist, das einfache Basismodelle (wie Mittelwertmodelle oder lineare Modelle) in fast allen Indikatoren und mehreren Datensätzen bei der Generalisierungsaufgabe zellulärer Umgebungen übertrifft. Darüber hinaus ermöglicht die vom Zelleneinbettungsmodell SE generierte Einbettung eine effektivere Vorhersage von Störungseffekten bei Nullstichproben in neuen zellulären Umgebungen.
Das Arc Institute, eine gemeinnützige Forschungsorganisation, veröffentlichte eine Reihe wichtiger Ergebnisse
Das Arc Institute wurde 2021 offiziell von Patrick Collison, Mitbegründer und CEO des bekannten Mobile-Payment-Unternehmens Stripe, und Silvana Konermann, Assistenzprofessorin für Biochemie an der Stanford University, und Patrick D. Hsu, Assistenzprofessor für Bioingenieurwesen an der University of California, Berkeley, gegründet.

Zu Beginn seiner GründungArc sammelte 650 Millionen US-Dollar an Investitionen ein, von denen 500 Millionen US-Dollar von Collison kamen.Dieser Schritt – ein Milliardär bezahlt die Frau eines Wissenschaftlers, damit sie sich nicht mehr um Forschungsgelder kümmern muss – löste in diesem Jahr in der Fachwelt breite Diskussionen aus. Die Mittel werden 15 Kernforschern und einem Team von Forschungsassistenten bis zu acht Jahre lang zur Verfügung stehen. Diese Forscher unterliegen keinen Einschränkungen und können in jeder Form an komplexen menschlichen Krankheiten forschen.
Dieses gemeinnützige Forschungsinstitut, das sich auf Spitzenforschung und Innovation in den Biowissenschaften konzentriert, ist nach den Inselbögen benannt. Inselbögen sind Archipele, die durch die Hebung an der Plattenverbindung entstanden sind. Der Gründer hofft, durch das Island Arc Institute Forscher aus vielen verschiedenen Institutionen und Disziplinen zusammenzubringen, um etwas Neues zu schaffen. Und genau das ist der Fall. Seit seiner Gründung hat das Arc Institute eine Reihe bahnbrechender Erfolge im Bereich der Biowissenschaften erzielt.
Im Februar dieses Jahres Das Arc Institute hat den Arc Virtual Cell Atlas veröffentlicht, der zunächst über 300 Millionen Zelldaten integriert.Der Atlas präsentierte zwei grundlegende Datensätze, die am 25. Februar 2025 als Open Source veröffentlicht wurden: Tahoe-100M ist ein neuer, von Tahoe erstellter Open-Source-Perturbations-Datensatz, der 100 Millionen Zellen und 60.000 Arzneimittel-Zell-Interaktionen in 50 Krebszelllinien enthält; scBaseCount ist der erste Einzelzell-RNA-Sequenzierungsdatensatz aus öffentlichen Daten. Arc nutzte KI-Agenten, um über 200 Millionen Zellbeobachtungen von 21 Arten aus öffentlichen Repositorien zu erfassen, zu verarbeiten und zu standardisieren.
Im April desselben Jahres10x Genomics und Ultima Genomics arbeiten mit dem Arc Institute zusammen, um die Entwicklung des Arc Virtual Cell Atlas zu beschleunigenDie Sammlung berechenbarer Einzelzellmessdaten wird durch Technologien von 10x und Ultima erweitert. Durch die Nutzung der Chromium Flex-Technologie von 10x werden Störungsdaten in großem Maßstab zu niedrigsten Kosten pro Zelle und mit höchster Auflösung generiert, um den Aufbau biologischer KI-Modelle zu unterstützen. Das Sequenzierungssystem UG 100 von Ultima und die Solaris-Chemie werden genutzt, um mehr Daten zu geringeren Kosten zu generieren. UG 100 Solaris Boost (ein neuer Hochdurchsatz-Betriebsmodus, der sich derzeit im Early Access befindet) wird die Datenausgabe weiter steigern.
Rückblickend, im November 2024,Das Arc Institute hat in Zusammenarbeit mit der Stanford University und der UC Berkeley Evo entwickelt, das erste biologisch basierte Modell, das im großen Maßstab auf DNA trainiert wurde.Es nutzt eine Deep-Learning-Architektur zur Analyse von DNA-Codierungsinformationen und ermöglicht Vorhersagen und Design auf DNA-, RNA- und Proteinebene, wobei die biologische Skala von Nukleotiden bis hin zu Genomen abgedeckt wird. Sein Hauptnutzen liegt in der Entschlüsselung von DNA-Evolutionsmustern. Das Forschungsteam nutzte es zur Entwicklung des in der Natur unbekannten funktionellen CRISPR-Systems EvoCas9-1, das nach dem Testen von nur elf Designs erfolgreich war. Dessen Sequenz 73% ähnelt der des häufig verwendeten Cas9, ist aber recht aktiv. Darüber hinaus wurde das mobile genetische Element IS200/IS605-Transposon erfolgreich entwickelt. Es gilt als Basismodell der generativen KI in der Biologie.
Februar 2025Aufbauend auf dieser Grundlage arbeitet das Arc Institute mit NVIDIA zusammen, um Evo 2 zu entwickeln, das bislang größte biologische KI-Modell. Evo 2 wurde anhand von 9,3 Billionen Nukleotiden aus über 100.000 Arten trainiert und kann Gensequenzmuster identifizieren, humanpathogene Mutationen präzise vorhersagen und neue Genome entwerfen, die der Länge bakterieller Genome entsprechen. Technisch nutzt es für das Training mehr als 2.000 H100-GPUs auf der NVIDIA DGX Cloud-Plattform und nutzt die StripedHyena 2-Architektur. Die verarbeitete Datenmenge ist 30-mal höher als beim Vorgänger Evo 1, und es kann Millionen von Nukleotidsequenzen gleichzeitig analysieren.
Darüber hinaus entdeckte Arcs Goodarzi-Labor im Juli 2024 in Zusammenarbeit mit dem Gilbert-Labor, dass mRNA ihre eigene Expression mithilfe des neu entdeckten „RNA-Schalters“ aktiv steuern kann. Im Juni 2024 entdeckte Arcs Hsu-Labor die erste natürliche RNA-gesteuerte Rekombinase, die zwei beliebige DNA-Sequenzen programmierbar einfügen, entfernen oder umkehren kann. Dies ist die erste DNA-Rekombinase, die nicht-kodierende RNA für sequenzspezifisches Targeting und das Screening von Spender-DNA-Molekülen nutzt. Da diese Brücken-RNA programmierbar ist, können Anwender jede gewünschte genomische Zielsequenz und jedes beliebige Spender-DNA-Molekül spezifizieren.
Quellen:
1.https://arcinstitute.org/news
2.https://mp.weixin.qq.com/s/THQTl2HI0mAXXwyykkQI5w