HyperAI

Version Coréenne d'AlphaFold ? Modèle D'apprentissage Profond AlphaPPIMd : Pour L'exploration D'ensemble Des Conformations De Complexes Protéine-protéine

特色图像

Les protéines jouent un rôle indispensable au cours de la vie. Ce sont les molécules les plus actives des organismes vivants, impliquées dans la construction cellulaire, la réparation, la conversion d’énergie, la transduction du signal et d’innombrables fonctions biologiques clés. Dans le même temps, la structure des protéines est étroitement liée à leurs fonctions, et ces fonctions sont réalisées grâce à des interactions complexes avec des protéines, des peptides, des nucléotides et diverses petites molécules. Cette interaction protéine-protéine (IPP) est au cœur de nombreux processus biologiques au sein des cellules, allant de la signalisation cellulaire aux réponses immunitaires en passant par la régulation du cycle cellulaire.

Cependant, notre compréhension actuelle de la structure tridimensionnelle des protéines et de leurs propriétés d’interaction est encore incomplète. Les techniques expérimentales traditionnelles, telles que la cristallographie aux rayons X et la cryomicroscopie électronique,Bien qu’elle puisse fournir des informations structurelles protéiques à haute résolution, elle prend du temps et est coûteuse.De plus, ils sont confrontés à des défis dans l’analyse des processus dynamiques et des protéines à faible abondance. Cela limite considérablement la compréhension approfondie des fonctions des protéines et des mécanismes d’interaction, ce qui affecte à son tour le développement de la conception de médicaments et de l’ingénierie des protéines.

Pour résoudre ce problème, le Dr Jianmin Wang de l’Université Yonsei et ses collaborateurs ont combiné l’apprentissage profond avec l’IA générative.En utilisant l'apprentissage par réseau neuronal génératif basé sur Transformer pour explorer l'ensemble conformationnel des complexes protéine-protéine,Les résidus clés affectant la conformation et la dynamique des complexes protéine-protéine ont été appris à partir de multiples trajectoires de dynamique moléculaire (MD) et ont fourni des informations mécanistes sur la liaison protéine-protéine.

Adresse du document :
https://doi.org/10.1101/2024.02.24.581708

Modèle AlphaPPIMd : basé sur la simulation de dynamique moléculaire, avec le mécanisme d'auto-attention comme noyau

L’équipe de recherche a utilisé l’ensemble de trajectoires du complexe barnase-barstar comme ensemble de données.Tout d'abord, la structure cristalline du complexe barnase-barstar a été téléchargée à partir de la Protein Data Bank (PDB), et les chaînes A et D ont été extraites comme structure initiale du complexe en supprimant le ligand et l'eau cristallographique. Les chercheurs ont ensuite ajouté les atomes d'hydrogène manquants à l'aide du module tleap dans AmberTools et les ont neutralisés en ajoutant des ions Na+ et Cl-, en les solvatant dans une boîte limite périodique de 12 Å de molécules d'eau TIP3P. Enfin, les fichiers de topologie et de coordonnées du système ont été compilés à l'aide du module tleap dans AmberTools et du champ de force AMBER ff14SB.

L'équipe de recherche a ensuite utilisé un système de simulation de dynamique moléculaire pour effectuer 500 étapes de simulations NVT typiques à l'aide d'un intégrateur Langevin pour minimiser l'énergie. Ensuite, 10 000 étapes de simulation NPT ont été effectuées à 300 K pour atteindre davantage l'état d'équilibre, et l'algorithme d'Ewald du réseau de particules a été utilisé pour calculer les interactions électrostatiques à longue portée. La valeur limite des interactions spatiales directes a été fixée à 1 nm, le pas de temps de simulation a été fixé à 2 fs et l'algorithme SHAKE a été défini pour contraindre les longueurs de toutes les liaisons impliquant des atomes d'hydrogène. Six simulations indépendantes de dynamique moléculaire de 100 ns ont ensuite été réalisées. Toutes les simulations ont été réalisées à l'aide d'OpenMM 7.7.

Après avoir terminé la simulation de dynamique moléculaire,L'équipe de recherche a construit le modèle AlphaPPIMd basé sur Transformer, en utilisant un modèle génératif profond pour capturer les états conformationnels des protéines difficiles à analyser à l'aide de la dynamique moléculaire traditionnelle. Le cœur du cadre AlphaPPImd est le mécanisme d’auto-attention, qui peut capturer les paires de résidus d’acides aminés clés qui affectent la conformation des complexes protéine-protéine à partir des trajectoires MD.

Architecture AlphaPPImd

d'abord,Le cadre AlphaPPImd prétraite la trajectoire MD du complexe protéine-protéine pour obtenir la longueur de la séquence, la composition de la séquence et le type de résidu d'acide aminé des deux chaînes, et calcule les angles Φ,Ψ des résidus sélectionnés dans la trajectoire pour représenter différents états conformationnels. (Comme indiqué dans les cases en pointillés roses et verts dans l'image ci-dessus)

Deuxièmement,Les chercheurs ont introduit chaque image de la trajectoire MD du complexe protéine-protéine dans le module d'encodage d'AlphaPPImd via le module d'intégration, qui contient un mécanisme d'auto-attention multi-têtes, un score d'attention et un module d'optimisation des fonctionnalités. Le décodeur d'AlphaPPImd est utilisé pour apprendre et capturer les contributions des résidus de différents types et positions dans un complexe protéique à la conformation.

enfin,Le module de prédiction génère de manière itérative l'état fondamental pour l'image suivante, et Modeller peut reconstruire le modèle conformationnel du complexe protéine-protéine sur la base de la trajectoire d'encodage de l'état fondamental étendu.

La couche d'auto-attention multi-têtes du module décodeur AlphaPPImd apprend les interactions entre des paires de résidus spécifiques. La fonction d'attention peut être considérée comme un mappage entre la requête (Q) et la sortie clé-valeur (KV). AlphaPPImd adopte les inclusions de résidus de complexes protéiques comme Q, les caractéristiques globales des complexes protéiques comme K et V, et calcule les pondérations d'attention en utilisant Q et K. La formule de calcul est la suivante :

Dans le même temps, l’étude a divisé six trajectoires MD indépendantes de 100 ns du complexe barnase-barstar en 300 primitives, chacune composée de 1 000 images. Les trajectoires MD ont été prétraitées pour ne conserver que les atomes de protéines. Chaque exécution MD fournit un ensemble limité d’instantanés physiques de complexes protéine-protéine. Chaque image de la trajectoire est représentée comme un état fondamental du codage Φ,Ψ. donc,L'état de torsion d'un complexe protéine-protéine est réduit à une représentation textuelle,Les principales caractéristiques mineures de la dynamique sont préservées.

Conclusion de la recherche : la précision moyenne de l'entraînement atteint 0,995, ce qui peut être étendu à davantage de complexes protéiques

Le complexe barnase-barstar est constitué de deux chaînes différentes avec un total de 197 résidus (chaîne barnase : 108 résidus, chaîne barstar : 89 résidus). L'étude a utilisé l'algorithme KMeans pour diviser les sites en 4 groupes, étiquetés 0 (violet dans la figure ci-dessous), 1 (bleu foncé dans la figure ci-dessous), 2 (vert dans la figure ci-dessous) et 3 (jaune dans la figure ci-dessous), puis a enregistré et stocké le centre de masse de chaque groupe pour reconstruire le modèle tout-atome du complexe barnase-barstar à partir de l'état de torsion codé dans l'état fondamental.

Parcelle de Ramachandran du complexe Barnase-Barstar

Cette étude convertit la trajectoire de chaque image en un vecteur de caractères, chacun composé de 4 symboles correspondant à 4 clusters. Enfin, un processus de représentation similaire a été réalisé pour les 300 motifs de l'ensemble de données de trajectoire MD du complexe barnase-barstar.

En résumé,Le complexe barnase-barstar est un hétérodimère présentant des différences distinctes dans les états fondamentaux des résidus codés dans les deux chaînes.Cela implique que le complexe barnase-barstar diffère considérablement dans la génération de nouveaux cadres de codage à l'état fondamental et dans la reconstruction de modèles conformationnels de protéines individuelles.

Superposition de la conformation générée du complexe barnase-barstar (bleu clair) avec la conformation de référence

Les recherches montrent queLa précision moyenne de formation du modèle AlphaPPImd est de 0,995 et la précision moyenne de validation est de 0,999.Bien qu'AlphaPPImd ait rapidement atteint des performances stables, afin d'améliorer davantage le modèle Transformer et d'enrichir la distribution de conformation MD apprise par le modèle, cette étude a utilisé plusieurs trajectoires MD comme ensembles de données. Par exemple, l’étude a sélectionné au hasard une image de la trajectoire de l’ensemble de test comme entrée et a utilisé le cadre AlphaPPImd formé pour générer 100 images de codage d’état fondamental.
Les résultats montrent queLe modèle est capable d’échantillonner et de déployer avec succès des conformations.Et les contraintes dièdres de Φ et Ψ peuvent être correctement appliquées.

Distribution RMSD des conformations des complexes protéine-protéine

L'étude a également sélectionné quatre conformations représentatives avec un RMSD proche de 2 Å parmi les 1 000 conformations du complexe barnase-barstar générées par le modèle AlphaPPImd. Les résultats de l’étude ont montré queLe modèle de conformation du complexe protéique généré par AlphaPPImd est plus proche de la structure cristalline de référence.La précision était plus élevée (écart RMS < 2 Å) et l'acceptabilité était plus élevée (DockQ ≥ 0,23).

Analyse d'interprétabilité

De plus, le mécanisme d’attention d’AlphaPPImd capture les poids d’attention entre les résidus clés et fournit des informations mécanistes sur la liaison protéine-protéine.

Des études ont montré que les résidus clés capturés par le modèle AlphaPPImd sont principalement situés aux interfaces des interactions protéiques, des boucles et des hélices, ce qui signifie queLe modèle génératif profond a capturé les résidus clés qui affectent la dynamique et la conformation du complexe barnase-barstar à partir de la trajectoire MD.Peut être utilisé pour compléter les résultats du MD. Parallèlement, les résidus clés capturés par le modèle AlphaPPImd sont principalement situés dans l'interface d'interaction Mdm2-p53, ce qui prouve également que le modèle peut être étendu à d'autres complexes protéine-protéine.

Prédiction des protéines de l'IA : à partir de AlphaFold  À cent écoles de pensée

Dès 2016, après la célébrité d’AlphaGo, l’équipe DeepMind a commencé à étudier le problème du repliement des protéines.
Lors du 13e CASP (Critical Assessment of protein Structure Prediction) fin 2018, AlphaFold s'est classé premier parmi 98 concurrents et a prédit avec précision les structures de 25 protéines sur 43. En 2020, AlphaFold 2 a été lancé, permettant une prédiction très précise des structures des monomères protéiques. En octobre 2021, DeepMind a publié une mise à jour appelée AlphaFold-Multimer, qui étend AlphaFold 2 et peut modéliser des complexes de plusieurs protéines. Le 8 mai 2024, AlphaFold 3 a une fois de plus étonné le monde, étendant le champ de prédiction des protéines à une large gamme de molécules biologiques.

Dès le lancement d'AlphaFold 2, Shi Yigong, académicien de l'Académie chinoise des sciences, déclarait aux médias : « À mon avis, c'est la plus grande contribution de l'intelligence artificielle au domaine scientifique, et c'est aussi l'une des avancées scientifiques les plus importantes réalisées par l'humanité au XXIe siècle. C'est une réalisation historique remarquable dans l'exploration scientifique du monde naturel par l'humanité. »

Avec l’exemple d’AlphaFold, la révolution industrielle apportée par l’IA dans le domaine de la conception des protéines est arrivée tranquillement.

En 2023,Le premier modèle de génération de protéines IA au monde, NewOrigin (nom chinois « Darwin »), a été officiellement dévoilé lors de la World Manufacturing Conference.Il est rapporté que le grand modèle NewOrigin est basé sur un mécanisme de génération conditionnelle et combine des mécanismes de rétroaction multidimensionnels tels que l'IA, la dynamique moléculaire, l'informatique quantique et les expériences humides. Il peut générer des séquences de protéines, des fonctions de protéines, des représentations de connaissances sur les protéines et d'autres contenus protéiques modaux avec une grande précision, et effectuer des tâches multidimensionnelles telles que l'affinité, la stabilité, l'activité et l'expression pour répondre aux besoins des applications industrielles réelles.

En 2022, des biologistes de la faculté de médecine de l’Université de Washington ont publié deux articles dans Science, présentant leurs principales découvertes. Les chercheurs ont déclaré :Grâce à l’apprentissage automatique, des molécules de protéines peuvent être créées en quelques secondes.Autrefois, cette période prenait plusieurs mois. La création de protéines qui n’existent pas dans la nature contribuera au développement de vaccins, à l’accélération de la recherche sur les traitements contre le cancer, au développement d’outils de capture du carbone, au développement de biomatériaux durables, et bien plus encore.

Il ne fait aucun doute que la prédiction de la structure des protéines par l’IA peut nous aider à mieux comprendre les protéines et, par conséquent, la vie. Cependant, la connaissance et la compréhension à elles seules sont loin d’être suffisantes. À l’avenir, les scientifiques devront utiliser l’IA pour prédire les protéines afin de résoudre des problèmes pratiques dans le domaine médical, comme la modification de protéines à la demande ou même la conception de protéines qui n’existent pas dans la nature à partir de zéro. La route à parcourir est longue et ardue, et nous espérons que l’IA apportera davantage de surprises dans l’exploration des sciences de la vie.