HyperAI

DeepMind Utilise L'apprentissage Non Supervisé Pour Développer AlphaMissense, Prédisant 71 Millions De Mutations Génétiques

il y a 2 ans
Information
Xuran Zhang
特色图像

Le génome humain compte au total 3,16 milliards de paires de bases, qui subissent en permanence des processus de réplication, de transcription et de traduction, et qui sont à tout moment exposées à des risques d’erreurs et de mutations.

Les mutations faux-sens sont une forme courante de mutation génétique, mais les humains n'en ont observé qu'une petite partie jusqu'à présent, et seulement 0,1% peuvent être interprétés.

La prédiction précise des effets des mutations faux-sens joue un rôle important dans la recherche et la prévention des maladies rares et des maladies génétiques. Cette fois, DeepMind est passé à l’action à nouveau.

Auteur | Xuecai

Rédacteur | Trois moutons, tour de fer

Cet article a été publié pour la première fois sur la plateforme publique HyperAI WeChat~

Le génome humain compte au total 3,16 milliards de paires de bases. Ces paires de bases subissent une réplication, une transcription et une traduction chaque jour et sont finalement exprimées sous forme de protéines qui régulent les activités physiologiques quotidiennes de l'homme.

Avec une charge de travail aussi énorme, même le corps humain délicat aurait du mal à réaliser des erreurs parfaites.Si vous ne faites pas attention, les paires de bases peuvent être mal alignées, ce qui peut entraîner des mutations génétiques et même un cancer au fil du temps.

La mutation faux-sens est une forme courante de mutation génétique.En raison de mutations de base dans l'ADN, les acides aminés traduits changent, conduisant finalement à la destruction de toute la fonction protéique.

Figure 1 : Schéma de la mutation faux-sens.En raison de la mutation des nucléotides d'adénine en nucléotides de guanine dans l'ADN,L'acide aminé converti de la glutamine en sérine

Actuellement, plus de 4 millions de mutations faux-sens ont été observées chez l’homme, mais seules les mutations faux-sens de 2% peuvent être classées comme mutations pathogènes ou mutations bénignes.

Prédire avec précision les effets des mutations faux-sens peut approfondir notre compréhension des maladies rares et prévenir et traiter les maladies génétiques potentielles.Bien que l’analyse multiplex des effets des variants (MAVE) puisse analyser systématiquement les mutations protéiques et prédire avec précision leurs effets cliniques,Mais cette méthode nécessite beaucoup de main d’œuvre et de ressources matérielles.Il est difficile d’effectuer une analyse complète de toutes les mutations faux-sens possibles.

À cette fin, DeepMind a analysé la structure globale de la protéine via AlphaFold.Nous avons développé AlphaMissense en combinant l’apprentissage par étiquettes faibles et l’apprentissage non supervisé.Les conséquences des mutations faux-sens ont été systématiquement analysées. AlphaMissense a été validé à l’aide de l’ensemble de données ClinVar.La précision de prédiction a atteint 90%.

Alors,AlphaMissense prédit 71 millions de mutations faux-sens possibles chez l'homme, parmi lesquelles 32% peut être une mutation pathogène et 57% peut être une mutation bénigne.Ces résultats favoriseront grandement le développement de disciplines telles que la biologie moléculaire, la génomique et la médecine clinique.Ce résultat a été publié dans « Science ».

Figure 2 : Résultats de prédiction d'AlphaMissense pour 71 millions de mutations faux-sens (en haut) et résultats actuellement observés et confirmés par l'homme (en bas)

Les résultats connexes ont été publiés dans « Science »

Lien vers l'article :

https://www.science.org/doi/10.1126/science.adg7492

Procédures expérimentales

AlphaMissense:AlphaFold + Réglage fin

Lorsqu'une séquence d'acides aminés est entrée dans AlphaMissense, elle prédit la pathogénicité de tout changement d'acide aminé dans la séquence. L'implémentation d'AlphaMissense est très similaire à celle d'AlphaFold, avec seulement des ajustements mineurs à l'architecture.

Figure 3 : Diagramme de structure AlphaMissense

Les données de formation d’AlphaMissense proviennent d’un large éventail de sources, mais principalement d’humains et de primates non humains.Parmi elles, on compte 1 248 533 mutations faux-sens bénignes provenant de l'homme, et des mutations faux-sens pathogènes extraites de 65 314 044 mutations qui peuvent survenir mais n'ont pas encore été observées.

La formation d'AlphaMissense se compose de deux étapes. Tout d’abord, comme AlphaFold, AlphaMissense doit prédire les acides aminés masqués de manière aléatoire dans plusieurs alignements de séquences.Prédisez ensuite la structure des protéines à chaîne unique et effectuez une modélisation du langage des protéines.

Alors,Les chercheurs ont affiné AlphaMissense en utilisant des protéines humaines.Et l’objectif de sortie du modèle a été défini, à savoir la pathogénicité de la mutation faux-sens.

Étant donné qu'il existe un nombre considérable de mutations bénignes parmi les mutations faux-sens non observées, mais qu'elles sont classées comme mutations pathogènes lors de la formation, l'ensemble de formation AlphaMissense est très bruyant.Afin d’améliorer la quantité et la qualité de l’ensemble d’entraînement, les chercheurs ont utilisé l’autodistillation pour filtrer les données.

Vérification des données cliniques:Performances dans différents ensembles de données

Une fois la formation terminée,AlphaMissense a été validé à l'aide de données cliniques annotées (ensemble de données ClinVar), de variantes de novo chez des patients atteints de troubles rares du développement et des résultats MAVE dans ProteinGym.

Dans un premier temps, les chercheurs ont évalué les performances d’AlphaMissense sur l’ensemble de données ClinVar. Après avoir analysé 18 924 sites de mutation,L'auROC d'AlphaMissense est de 0,940, ce qui constitue une amélioration par rapport au modèle évolutif de pointe précédent (EVE) (0,911).

Lors de l’évaluation clinique des mutations faux-sens, on se concentre généralement sur les gènes associés à des maladies spécifiques. Il est donc particulièrement important de faire la distinction entre les mutations faux-sens bénignes et pathogènes dans ces gènes. Les chercheurs ont utilisé AlphaMissense pour analyser 612 gènes dans ClinVar.Son auROC est de 0,950, ce qui est meilleur que celui de 0,921 d'EVE.

Enfin, les chercheurs ont analysé les résultats de prédiction d’AlphaMissense dans l’ensemble de données Deciphering Developmental Disorders (DDD). L'auROC d'AlphaMissense est de 0,809, ce qui est comparable à 0,797 de PrimateAI.

Figure 4 : Comparaison des performances d'AlphaMissense et d'autres modèles dans différents ensembles de données

A : Analyse des sites de mutation dans ClinVar ;

B : Analyse des gènes dans ClinVar ;

C : Analyse de l'ensemble de données DDD.

Dans le même temps, les résultats de prédiction d'AlphaMissense pour les points chauds du cancer, l'ACMG (American College of Medical Genetics) et d'autres données MAVE sont meilleurs que ceux des autres modèles.Les résultats ci-dessus montrent qu’AlphaMissense surpasse les modèles existants dans plusieurs ensembles de données.

Performances de prédiction globales:Reflétant les tendances en matière de mutation des protéines

Après avoir vérifié AlphaMissense avec des données cliniques,Les chercheurs ont utilisé AlphaMissense pour prédire les mutations possibles de 216 millions d’acides aminés dans 19 233 protéines courantes chez l’homme, et ont finalement obtenu des prédictions pour 71 millions de mutations faux-sens.

Les résultats de prédiction de pathogénicité d'AlphaMissense sont compris entre 0 et 1, et plus ils sont proches de 1, plus la possibilité de pathogénicité est élevée. Étant donné que la grande majorité des prédictions sont proches de 0 et 1, les valeurs comprises entre 0,2 et 0,8 sont susceptibles d’être moins précises. En fin de compte, ils ont classé les prédictions en trois catégories :Peut-être pathogène, peut-être bénin et indéterminé.

Pour évaluer les performances prédictives d’AlphaMissense dans leur ensemble, les chercheurs ont calculé la pathogénicité des acides aminés individuels pour toutes les protéines. Les résultats montrent queLes mutations dans les acides aminés aromatiques et la cystéine sont plus susceptibles de provoquer des maladies, ce qui est cohérent avec les résultats réels.Parce que ces deux acides aminés jouent un rôle dans le maintien de la structure des protéines.

Figure 5 : Carte thermique des résultats de prédiction d'AlphaMissense,Les blocs de couleur représentent la pathogénicité moyenne de 216 millions de changements d'acides aminés dans le protéome

Après avoir visualisé les résultats de prédiction d'AlphaMissense et les structures protéiques prédites par AlphaFold, nous pouvons voir les tendances de mutation de ces protéines.Par exemple, les régions avec une structure protéique désordonnée correspondent à des régions où se produisent des mutations bénignes, ce qui est cohérent avec les résultats de prédiction de la protéomique.

Figure 6 : Résultats de visualisation de certaines protéines dans les ensembles de données ACMG et MAVE

À gauche, la pathogénicité prédite par AlphaMissense. Les mutations faux-sens susceptibles de provoquer une maladie sont en rouge, les mutations faux-sens susceptibles d'être bénignes sont en bleu et les mutations qui ont été incluses dans l'ensemble de données ClinVar sont marquées par des cercles pleins. À droite se trouve la structure protéique prédite par AlphaFold. Différentes couleurs indiquent la pathogénicité des mutations dans cette région, correspondant à AlphaMissense.

Précision des prédictions:Cohérence avec les résultats MAVE

Pour étudier la cohérence entre les résultats d’AlphaMissense et de MAVE, les chercheurs ont analysé deux ensembles de données MAVE à l’aide d’AlphaMissense.Comparé à d’autres méthodes de prédiction, AlphaMissense est le plus proche des données MAVE.

Figure 7 : Coefficient de corrélation de Spearman d'AlphaMissense et d'autres modèles avec les résultats de prédiction MAVE,Parmi eux, AlphaMissense a le meilleur résultat

Ils ont ensuite comparé les données de prédiction d’AlphaMissense avec la pathogénicité des mutations faux-sens vérifiées par des expériences. La protéine SHOC2 peut former un complexe avec les protéines MRAS et PP1C pour activer la voie cancéreuse Ras-MAPK. AlphaMissense et MAVE ont prédit la corrélation entre cette mutation et les cellules cancéreuses Ras.Le coefficient de corrélation de Spearman obtenu est de 0,47, ce qui est meilleur que les autres modèles. (ESM1v : 0,41, ESM1b : 0,40, EVE : 0,32).

Figure 8 : Résultats de prédiction de différents modèles pour les mutations faux-sens dans l'ensemble de données MAVE

De plus, les chercheurs ont exploré les résultats de prédiction d’AlphaMissense sur la pathogénicité des mutations faux-sens des acides aminés dans différentes régions de la protéine SHOC2. Parmi les 80 premiers acides aminés de SHOC2, MAVE a prédit que les mutations dans les acides aminés 63 à 74 sont pathogènes car cette région se lie à la protéine PP1C via RVxF. AlphaMissense est le seul modèle qui identifie cette région importante.

Figure 9 : Résultats de la prédiction AlphaMissense pour la protéine SHOC2

A : Résultats de prédiction de différents modèles sur la pathogénicité des mutations dans les 200 premiers acides aminés de la protéine SHOC2. De haut en bas, ce sont la situation réelle (MAVE), AlphaMissense et EVE ;

B : Le schéma structurel du complexe composé de la protéine SHOC2 (rouge et bleu) et des protéines MRAS (jaune) et PP1C (or).

De plus, AlphaMissense peut refléter les résultats de différents types de mutations faux-sens d'acides aminés.Pour la protéine SHOC2, les résultats de prédiction d’AlphaMissense sont les plus proches des résultats réels.

Figure 10 : Corrélation entre différents modèles pour la prédiction de la pathogénicité des mutations d'acides aminés dans les résultats SHOC2 et MAVE

Les résultats ci-dessus indiquent collectivement que les résultats de prédiction d’AlphaMissense sont comparables à ceux de MAVE et peuvent prédire avec précision les résultats des mutations faux-sens des gènes.

Finalement, Deepmind a rendu le modèle et les résultats de prédiction open source pour la communauté, dans l'espoir que les conclusions pourraient aider la recherche dans d'autres disciplines.

Lien du modèle :

https://github.com/deepmind/alphamissense

Mutation génétique : hors de portée mais toujours présente

Lorsqu’il s’agit de mutation génétique, nous pensons facilement à des éléments dangereux tels que les rayons X, les radiations nucléaires, les nitrites ou des scènes des films Resident Evil et Hulk, et nous pensons que ceux-ci sont trop éloignés de nous. Il est vrai que les radiations auxquelles nous sommes exposés dans notre vie quotidienne sont très faibles.Mais les mutations génétiques se produisent encore à chaque instant de notre vie et changent réellement nos vies.

Dans la vie, nous sommes inévitablement exposés à des sources de radiations., comme la lumière du soleil. Le rayonnement solaire provient des rayons ultraviolets, qui sont l’un des facteurs cancérigènes. Par conséquent, une exposition prolongée au soleil augmente le risque de cancer de la peau.

Même sans exposition à des sources de rayonnement,L’ADN commet inévitablement des erreurs lors de la réplication, de la transcription et de la traduction, provoquant des mutations génétiques., mais ces mutations peuvent être bénignes ou éliminées avec le temps par le mécanisme immunitaire.

Mais en même temps, les mutations génétiques facilitent également nos vies.Surtout dans la production agricole. Les mutants de cultures peuvent augmenter les rendements des cultures, améliorer la tolérance des cultures au sel et aux alcalis et même aider à contrôler les parasites. Après la sélection et le criblage de ces mutants, ces excellentes caractéristiques peuvent être conservées, augmentant ainsi la production alimentaire.

Figure 11 : Différentes variétés de mutants de maïs

Cependant, il existe trop de possibilités de mutations génétiques humaines, et ce que nous savons actuellement n’est qu’une goutte d’eau dans l’océan. Avec AlphaMissense, nous pouvons faire des prédictions relativement fiables sur les résultats des mutations génétiques, puis les déduire.Peut-être pouvons-nous découvrir les mécanismes à l’origine des maladies génétiques et des maladies rares et proposer de nouvelles méthodes de prévention et de traitement des maladies.

Parallèlement, AlphaMissense fournit également du matériel pour la recherche dans d’autres domaines. Peut-être que bientôt, nous pourrons voir AlphaMissense interpréter les mutations génétiques chez d’autres espèces.Nous pouvons alors faire un usage rationnel des mutations génétiques et permettre au génie génétique d’apporter davantage d’avantages à nos vies.

Liens de référence :

[1]https://www.science.org/doi/10.1126/science.abj6987

[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/

Cet article a été publié pour la première fois sur la plateforme publique HyperAI WeChat~