HyperAI

Après Evo 2, Arc Institute a Publié Le Premier Modèle De Cellule Virtuelle STATE, Avec Des Données D'entraînement Impliquant 70 Lignées Cellulaires Différentes

特色图像

Comme nous le savons tous, le corps humain est composé de différents types de cellules : les cellules immunitaires peuvent déclencher des réponses inflammatoires pour résister aux agents pathogènes en cas d'infection ; les cellules souches ont le potentiel de se différencier et de générer divers types de tissus ; et les cellules cancéreuses prolifèrent anormalement en échappant aux signaux régulateurs de croissance. Bien que ces cellules présentent des fonctions et une morphologie très différentes, elles possèdent toutes quasiment le même génome.Le caractère unique des cellules ne vient pas des différences dans la séquence d’ADN elle-même, mais de la manière dont elles régulent et utilisent la même information génétique.

En d'autres termes, les caractéristiques des cellules proviennent de différences dans l'expression des gènes, et le modèle d'expression des gènes d'une cellule détermine non seulement à quel type de cellule elle appartient, mais détermine également l'état cellulaire dans lequel elle se trouve. Par conséquent,En observant les changements dans l’expression des gènes, il est possible de déterminer si une cellule est saine, enflammée ou cancéreuse.Sur cette base, en mesurant les réponses transcriptionnelles des cellules soumises à une intervention chimique ou génétique, les modèles d’IA peuvent apprendre et prédire les trajectoires de transition des cellules entre différents états, et même prédire les effets d’interventions invisibles.

Ce type de modèle de « cellule virtuelle » devrait améliorer considérablement l’efficacité du développement de médicaments.——Dans le contexte où chaque médicament est une intervention ciblée, il peut aider les scientifiques à évaluer plus précisément les options de traitement, à guider l’état cellulaire de la maladie à la santé, tout en réduisant les effets secondaires et en améliorant les taux de réussite clinique à la source.

Aujourd'hui, le modèle de cellule virtuelle est devenu réalité. L'organisme de recherche à but non lucratif Arc Institute, qui a lancé la série de modèles Evo, s'est associé à des équipes de recherche d'universités comme UC Berkeley et Stanford.Lancement du modèle cellulaire virtuel STATE, qui peut prédire la réponse des cellules souches, des cellules cancéreuses et des cellules immunitaires aux médicaments, aux cytokines ou aux interventions génétiques.Ses données d'entraînement couvrent des données d'observation de près de 170 millions de cellules et des données d'intervention de plus de 100 millions de cellules, impliquant 70 lignées cellulaires différentes, et intègrent les données de l'Arc Virtual Cell Atlas. Les résultats expérimentaux montrent que State surpasse nettement les méthodes courantes actuelles pour prédire les modifications du transcriptome après intervention. Lors du test de l'ensemble de données Tahoe-100M, il a amélioré de 50% la distinction des effets de l'intervention, et sa précision dans l'identification des gènes différentiellement exprimés est deux fois supérieure à celle des modèles existants.

Actuellement, STATE est ouvert à un usage non commercial et les résultats associés ont été publiés sous forme de pré-impression intitulée « Prédire les réponses cellulaires aux perturbations dans divers contextes avec State ».

Lien vers l'article :https://go.hyper.ai/1UFMr 

Adresse open source du projet :https://github.com/ArcInstitute/state

Fusion de deux sources de données couvrant 70 lignées cellulaires

STATE se compose de deux modules principaux : STATE Transition (ST) et STATE Embedding (SE). Grâce à ce cadre multi-échelle, il peut intégrer deux types de sources de données :Des données d’observation de 167 millions de cellules ont été utilisées pour former le modèle SE, et des données de plus de 100 millions de cellules d’intervention ont été utilisées pour former le modèle ST.

Les détails de l'ensemble de données d'intervention unicellulaire utilisé pour l'entraînement du modèle ST sont présentés dans la figure ci-dessous. Tous les ensembles de données ont été examinés afin de ne conserver que les mesures de 19 790 gènes Ensembl codant pour des protéines humaines, et sont uniformément standardisés pour une profondeur UMI totale de 10 000.

Ensemble de données utilisé pour la formation du modèle ST

dans:

* Ensemble de données Tahoe-100M :Un ensemble massif de données unicellulaires, un atlas unicellulaire à l'échelle du pétaoctet contenant 100 millions de profils de transcriptome, mesurant les effets de 1 100 perturbations de petites molécules sur chaque cellule dans 50 lignées cellulaires cancéreuses.

Tahoe-100M Adresse de téléchargement du jeu de données :

https://go.hyper.ai/Wqbl0

* Ensemble de données Parse-PBMC :La société de biotechnologie Parse Biosciences a publié un ensemble de données open source de séquençage d'ARN monocellulaire (scRNA-seq), qui a analysé 10 millions de cellules dans 1 152 échantillons lors d'une seule expérience. Cet ensemble est principalement utilisé pour étudier les caractéristiques d'expression génétique des cellules mononucléaires du sang périphérique (PBMC) humaines dans différentes conditions.

Analyser-PBMC Adresse de téléchargement du jeu de données :

https://go.hyper.ai/20nBg

Le modèle SE a été entraîné sur 167 millions de cellules humaines. La source des données est présentée dans la figure ci-dessous. Afin d'éviter toute fuite de données lors du test de généralisation contextuelle, les chercheurs n'ont utilisé que 20 lignées cellulaires de l'ensemble de données Tahoe pour l'entraînement et ont conservé 5 autres lignées cellulaires comme ensemble de test réservé.

Ensemble de données utilisé pour la formation du modèle SE

dans,L'Arc Institute a récemment publié un ensemble de données d'expression de cellules humaines à grande échelle, scBaseCount, qui contient plus de 40 millions de cellules humaines.Couvrant plusieurs organes, lignées cellulaires et états pathologiques. Dans cette étude, lors du traitement des données scBaseCount, les chercheurs ont examiné des cellules présentant au moins 1 000 valeurs d'expression non nulles et 2 000 UMI par cellule.

STATE, un cadre multi-échelle basé sur Transformer

STATE permet de prédire la réponse transcriptomique des cellules après une perturbation, notamment les modifications de l'expression génique, les gènes différentiellement exprimés et l'intensité de l'effet global de la perturbation. L'architecture intègre plusieurs niveaux d'information :

* Niveau moléculaire :Utiliser des intégrations pour représenter les caractéristiques des gènes individuels à travers les expériences et les espèces ; 

* Niveau cellulaire :Utiliser des intégrations pour représenter l'état transcriptomique d'une seule cellule, soit le profil d'expression log-normalisé de la cellule, soit l'intégration générée par le modèle STATE Embedding (SE) ;

* Niveau du groupe :Le modèle STATE Transition (ST) apprend les effets des perturbations sur un ensemble de cellules.

Parmi eux, ST repose sur l'architecture Transformer et utilise le mécanisme d'auto-attention pour modéliser le processus de transformation d'une intervention dans un ensemble de cellules. Chaque cellule peut être représentée par l'expression du gène d'origine ou par un vecteur intégré. Le module SE est pré-entraîné sur divers ensembles de données hétérogènes et peut apprendre les différences d'expression entre les cellules et générer des vecteurs expressifs robustes au bruit technique et très sensibles aux réponses aux interventions. Grâce au mécanisme d'auto-attention, le modèle ST peut capturer avec souplesse une variabilité biologique complexe sans hypothèses de distribution explicites.

Comme le montre la figure ci-dessous, en tant que cadre d’apprentissage automatique multi-échelle,STATE peut être utilisé à plusieurs niveaux : au niveau du gène, de la cellule unique et de la population cellulaire.Parmi eux, le modèle ST apprend l'effet de perturbation en s'entraînant sur un ensemble de populations cellulaires perturbées et non perturbées, regroupées selon des covariables communes (telles que le type de perturbation, l'environnement cellulaire et le lot). Le modèle ST peut traiter directement les profils d'expression génétique ou compacter les représentations cellulaires issues du modèle SE, qui apprend des représentations d'intégration riches en informations à partir de données d'observation à grande échelle.

Dans le même temps, cette architecture multi-échelle permet à ST de simuler efficacement les expériences Perturb-seq in silico et de prendre en charge les tâches d'analyse ultérieures telles que l'estimation de l'expression, l'analyse de l'expression différentielle et l'estimation de la taille de l'effet de perturbation.

Cadre de base de l'ÉTAT

Le cadre du modèle ST est illustré dans la figure ci-dessous. Son entrée est un ensemble de populations cellulaires non perturbées et de marqueurs de perturbation, et sa sortie est les populations cellulaires perturbées correspondantes. Lorsque les cellules sont représentées par des profils d'expression génique, ST peut prédire directement le transcriptome à l'échelle de la cellule unique ; en utilisant l'intégration STATE comme entrée, ST prédit d'abord l'intégration de sortie, puis la décode dans le transcriptome via un perceptron multicouche (MLP).

Cadre du modèle ST

L'objectif de formation du modèle ST est de minimiser la perte de différence moyenne maximale (MMD) entre le transcriptome cellulaire perturbé prédit et les données observées réelles.Bien que ST apprenne l'effet de la perturbation au niveau de la distribution cellulaire, il prédit néanmoins le profil d'expression après la perturbation pour chaque cellule spécifique. Cette propriété est cruciale pour capturer la structure de distribution des cellules dans la population perturbée.

Des expériences ont montré que, dans une certaine limite, l'augmentation de la taille de l'ensemble de cellules peut réduire significativement la perte de validation, ce qui est nettement plus efficace que la modélisation d'une seule cellule. De plus, la suppression du mécanisme d'auto-attention entraîne une baisse des performances, comme le montre la figure D ci-dessous, qui illustre l'intérêt du mécanisme d'auto-attention flexible basé sur l'ensemble pour modéliser l'hétérogénéité cellulaire dans la réponse aux perturbations.

Effet de la taille de l'ensemble cellulaire sur les performances de prédiction des perturbations

Le modèle SE est un complément au modèle ST.Vise à apprendre les inclusions cellulaires, en capturant de manière optimale les modèles d'expression génétique spécifiques au type de cellule,Comme le montre la figure A ci-dessous, l'intégration est particulièrement utile lorsque la quantité de données est faible ou le bruit expérimental important. Associée à la méthode ST, l'intégration offre un espace d'état cellulaire plus lisse. Cette intégration est apprise à partir d'un grand nombre de bases de données observationnelles de cellules individuelles, ce qui revient à utiliser indirectement de riches données observationnelles de cellules individuelles pour améliorer la précision de la prédiction de la réponse aux perturbations, notamment lorsque les données d'intervention sont limitées.

Architecture du modèle SE

En termes d'architecture, l'encodeur SE est un transformateur bidirectionnel dense, dont l'objectif d'apprentissage est de prédire l'expression génétique normalisée en logarithme. Le décodeur SE est un perceptron multicouche (MLP) plus petit et spécialement conçu, qui prédit l'expression génétique en combinant des inclusions cellulaires apprises et des inclusions de gènes cibles. Cette conception asymétrique de l'architecture permet au modèle d'apprendre des états cellulaires ayant une base biologique et une bonne capacité de généralisation.

STATE ouvre la voie à la prédiction des effets de perturbation dans les environnements cellulaires

Les chercheurs ont comparé STATE à divers modèles de référence, dont trois modèles d'apprentissage automatique : CPA, scVI et scGPT, et les ont évalués sur des ensembles de données chimiques, de transduction du signal et de perturbation génétique. Leur cadre d'évaluation couvre les trois principales catégories de résultats des expériences Perturb-Seq : le comptage de l'expression génétique, les statistiques d'expression différentielle et l'ampleur globale de l'effet de perturbation.

Pour évaluer de manière exhaustive les performances du modèle dans ces dimensions,Les chercheurs ont développé un ensemble d’indicateurs d’évaluation, Cell-Eval,Comme le montre la figure C ci-dessous, ces indicateurs sont à la fois expressifs et explicatifs sur le plan biologique, et peuvent offrir des perspectives d'évaluation complémentaires. Par exemple, le degré de chevauchement des DEG permet de relier les résultats prédits à des voies spécifiques et de leur conférer une signification biologique ; tandis que le score de discrimination des perturbations permet de saisir avec plus de précision les variations fines de l'effet de perturbation et de refléter la similarité entre les résultats prédits et l'effet réel de la perturbation.

Cell-Eval, un cadre de modélisation et d'évaluation de cellules virtuelles

Lors de l'évaluation spécifique des expériences de perturbation, le modèle doit être capable de distinguer efficacement les effets de différentes perturbations. À cette fin, les chercheurs ont utilisé une méthode d'évaluation du score de discrimination des perturbations, adaptée de Wu et al. en 2024, qui classe les effets des perturbations en comparant la similarité entre le profil d'expression prédit après perturbation et les résultats réels de la perturbation. Les résultats montrent queLes performances du modèle STATE sur les ensembles de données Tahoe et PBMC se sont améliorées respectivement de 54% et 29%.Comme le montre la figure D ci-dessous.

Pour évaluer directement la précision des prédictions du nombre d’expressions génétiques, les chercheurs ont calculé le coefficient de corrélation de Pearson entre les changements d’expression observés induits par les perturbations et les prédictions du modèle.Le modèle STATE surpasse le modèle de base de 63% sur l'ensemble de données Tahoe et de 47% sur l'ensemble de données PBMC.Comme le montre la figure E ci-dessous.

Pour évaluer les valeurs p des gènes différentiellement exprimés (DE) prédites par le modèle, les chercheurs ont d'abord calculé les gènes réellement significativement différentiellement exprimés à l'aide des données de perturbation observées lors de l'expérience et ont fixé le seuil FDR à 0,05. Les valeurs p générées par les prédictions du modèle ont ensuite été comparées au seuil de signification réel, et la courbe précision-rappel (PR) a été tracée.En calculant l’aire sous la courbe PR (AUPRC), on peut constater que STATE est toujours meilleur que tous les modèles de base sur tous les ensembles de données.Comme le montre la figure F ci-dessous.

Comparaison des performances des modèles STATE et de base sur plusieurs tâches d'évaluation

L'AUPRC (aire sous la courbe précision-rappel) du modèle STATE sur l'ensemble de données de perturbation génétique est 184% plus élevée que celle du modèle classé deuxième.Ce résultat est très évident dans les courbes PR de chaque modèle sur différents ensembles de données, comme le montre la figure G ci-dessous.

Prédire les gènes différentiellement exprimés sous chaque perturbation

Il convient également de mentionner queSTATE prend également en charge la prédiction zéro coup.Autrement dit, même dans un nouvel environnement cellulaire où aucune donnée de perturbation n’a été observée pendant la formation du modèle, l’effet de perturbation peut être prédit avec précision, comme le montre la figure ci-dessous.

STATE permet une prédiction sans coup sûr

De plus, pour démontrer les scénarios d’application pratique de STATE, les chercheurs ont évalué sa capacité à détecter l’expression différentielle spécifique au type de cellule, en se concentrant sur cinq lignées cellulaires dans l’ensemble de données Tahoe-100M comme indiqué dans la figure A ci-dessous.

L'état peut détecter les changements d'expression génétique spécifiques au type de cellule causés par des perturbations

Les chercheurs ont identifié des conditions de perturbation fortement spécifiques au type cellulaire en comparant le chevauchement des résultats de prédiction de STATE et des deux modèles de base pour les gènes différentiellement exprimés, ainsi que le coefficient de corrélation de Spearman du log fold change. Si les performances sont supérieures à la moyenne de base des perturbations, cela signifie que STATE a appris les effets des perturbations spécifiques à un type cellulaire donné ; si elles sont supérieures à la moyenne de base des perturbations environnementales, cela signifie que le modèle peut distinguer les effets de différentes perturbations dans une même lignée cellulaire, plutôt que de simplement prédire le niveau d'expression moyen de chaque lignée cellulaire.

Dans toutes les conditions de perturbation,STATE a constamment montré une plus grande capacité à restaurer plus précisément l'ordre réel du changement de repli logarithmique des gènes différentiellement exprimés.Il est nettement meilleur que les deux modèles de base de moyenne environnementale et de moyenne de perturbation, comme le montre la figure B ci-dessus.

En résumé, l'équipe de recherche a proposé que STATE soit le premier modèle d'apprentissage automatique à surpasser les références simples (telles que les modèles moyens ou linéaires) pour presque tous les indicateurs et de multiples ensembles de données dans la tâche de généralisation de l'environnement cellulaire. De plus, l'intégration générée par le modèle d'intégration cellulaire SE permet d'obtenir une prédiction plus efficace des effets de perturbation à échantillon nul dans les nouveaux environnements cellulaires.

L'Arc Institute, un organisme de recherche à but non lucratif, a publié une série de résultats importants

L'Arc Institute a été officiellement créé en 2021 par Patrick Collison, cofondateur et PDG de la célèbre société de paiement mobile Stripe, et Silvana Konermann, professeur adjoint de biochimie à l'Université de Stanford, et Patrick D. Hsu, professeur adjoint de bio-ingénierie à l'Université de Californie à Berkeley.

Patrick Collison a annoncé ses fiançailles avec Silvana Konermann en juin 2019

Au début de sa création,Arc a levé 650 millions de dollars d'investissement, dont 500 millions de dollars provenant de Collison.Cette initiative d'un milliardaire payant la femme d'un scientifique pour qu'elle cesse de se soucier du financement de la recherche a suscité un large débat dans le milieu cette année-là. Ces fonds permettront de financer jusqu'à huit ans 15 chercheurs principaux et une équipe d'assistants de recherche. Ces chercheurs ne sont soumis à aucune restriction et peuvent mener des recherches sur toutes les maladies humaines complexes.

Cet institut de recherche à but non lucratif, axé sur la recherche de pointe et l'innovation en sciences de la vie, doit son nom aux arcs insulaires, des archipels formés par le soulèvement à la jonction des plaques. Son fondateur espère réunir des chercheurs de nombreuses institutions et disciplines différentes au sein de l'Island Arc Institute afin de créer quelque chose de nouveau. C'est effectivement le cas. Depuis sa création, l'Arc Institute a réalisé une série de projets phares dans le domaine des sciences de la vie.

En février de cette année, L'Arc Institute a publié l'Arc Virtual Cell Atlas, intégrant initialement plus de 300 millions de données cellulaires.L'atlas a lancé deux jeux de données de base, rendus open source le 25 février 2025 : Tahoe-100M est un nouvel ensemble de données de perturbation open source créé par Tahoe, contenant 100 millions de cellules et 60 000 interactions médicament-cellule dans 50 lignées cellulaires cancéreuses ; scBaseCount est le premier jeu de données de séquençage d'ARN monocellulaire issu de données publiques. Arc a utilisé des agents d'IA pour exploiter et traiter plus de 200 millions d'observations cellulaires représentant 21 espèces issues de référentiels publics, puis les normaliser.

En avril de la même année,10x Genomics et Ultima Genomics collaborent avec l'Arc Institute pour accélérer le développement de l'Arc Virtual Cell AtlasSa collection de données de mesure informatisées sur cellules individuelles est enrichie par les technologies 10x et Ultima. Grâce à la technologie Chromium Flex de 10x, les données de perturbation sont générées à grande échelle, au coût par cellule le plus bas et à la résolution la plus élevée, contribuant ainsi à la création de modèles d'IA biologique. Le système de séquençage UG 100 d'Ultima et la chimie Solaris permettent de générer davantage de données à moindre coût. L'UG 100 Solaris Boost (un nouveau mode de fonctionnement à haut débit actuellement en accès anticipé) permettra d'accroître encore la production de données.

Avec le recul, en novembre 2024,L'Arc Institute, en collaboration avec l'Université de Stanford et l'UC Berkeley, a développé Evo, le premier modèle biologique formé sur l'ADN à grande échelle.Il utilise une architecture d'apprentissage profond pour analyser les informations codantes de l'ADN et peut prédire et concevoir des algorithmes aux niveaux de l'ADN, de l'ARN et des protéines, couvrant l'échelle biologique, des nucléotides aux génomes. Son intérêt principal réside dans le décryptage des schémas d'évolution de l'ADN. L'équipe de recherche l'a utilisé pour concevoir le système CRISPR fonctionnel EvoCas9-1, inconnu dans la nature, qui a réussi après seulement 11 tests. Sa séquence, 73%, est similaire à celle du Cas9 couramment utilisé, mais elle est relativement active. De plus, le transposon IS200/IS605, élément génétique mobile, a été conçu avec succès. Il est reconnu comme le modèle de base de l'IA générative en biologie.

Février 2025S'appuyant sur cette base, l'Arc Institute collabore avec NVIDIA pour développer Evo 2, le plus grand modèle d'IA biologique à ce jour. Evo 2 s'entraîne sur 9,3 billions de nucléotides provenant de plus de 100 000 espèces et peut identifier des modèles de séquences génétiques, prédire avec précision les mutations pathogènes humaines et concevoir de nouveaux génomes d'une longueur équivalente à celle des génomes bactériens. Techniquement, il utilise plus de 2 000 GPU H100 sur la plateforme NVIDIA DGX Cloud pour l'entraînement et l'architecture StripedHyena 2. La quantité de données traitées est 30 fois supérieure à celle de son prédécesseur, Evo 1, et il peut analyser des millions de séquences nucléotidiques simultanément.

De plus, en juillet 2024, le laboratoire Goodarzi d'Arc a collaboré avec le laboratoire Gilbert pour découvrir que l'ARNm peut contrôler activement sa propre expression grâce à un nouveau « interrupteur à ARN ». En juin 2024, le laboratoire Hsu d'Arc a découvert la première recombinase naturelle guidée par l'ARN, capable d'insérer, d'exciser ou d'inverser de manière programmable deux séquences d'ADN d'intérêt. Il s'agit de la première recombinase d'ADN utilisant l'ARN non codant pour le ciblage spécifique de séquence et le criblage de molécules d'ADN donneuses. Grâce à sa programmation, cet ARN pont permet aux utilisateurs de spécifier la séquence cible génomique souhaitée et la molécule d'ADN donneuse à insérer.

Références :
1.https://arcinstitute.org/news
2.https://mp.weixin.qq.com/s/THQTl2HI0mAXXwyykkQI5w