AlphaFolding Comble Le Vide Dans La Prédiction De La Structure Dynamique Des Protéines ! L'Université Fudan Et D'autres Ont Proposé Un Modèle De Diffusion 4D, Et Les Résultats Ont Été Sélectionnés Pour L'aaai 2025

La fonction d’une protéine dépend en grande partie de sa structure 3D. Au milieu du XIXe siècle, la communauté scientifique croyait généralement que la structure des protéines était fixe et rigide, semblable au « modèle serrure et clé ».Autrement dit, la liaison entre la protéine et le ligand est déterminée par une structure tridimensionnelle fixe.Cependant, la pensée traditionnelle a commencé à être remise en question lorsque Daniel Koshland a proposé l’idée que les enzymes subissent des changements conformationnels lorsqu’elles se lient à des substrats.
Dans les années 1980, la simulation de dynamique moléculaire (MD) a émergé.Pour la première fois, la trajectoire de mouvement des protéines a été révélée d’un point de vue informatique.Depuis lors, le rôle fonctionnel de la structure dynamique des protéines a reçu une attention croissante. Pour les chercheurs et les scientifiques en biotechnologie, comprendre les caractéristiques dynamiques du « mouvement » des protéines est d’une grande importance pour comprendre les processus vitaux et développer de nouveaux médicaments.
Par exemple, les récepteurs couplés aux protéines G (GPCR) sont les principales cibles de nombreux médicaments, représentant plus de 30% des médicaments actuellement approuvés par la FDA. Cependant, les GPCR ne sont pas des structures rigides mais sont très dynamiques, et différents états conformationnels peuvent affecter les modes de liaison des médicaments. Si les médicaments sont conçus uniquement sur la base de structures cristallines statiques, des sites de liaison clés peuvent être manqués, ce qui entraîne une affinité et une sélectivité insuffisantes du médicament. La prédiction de la structure dynamique peut aider à identifier plusieurs conformations de GPCR dans des environnements physiologiques.Cela permettra d’optimiser la conception de médicaments à petites molécules et d’améliorer le taux de réussite de la thérapie ciblée.
Dans ce contexte, l'équipe des professeurs Zhu Siyu et Qi Yuan de l'Université Fudan et de l'Institut des sciences et du renseignement de Shanghai, en collaboration avec le professeur Yao Yao de l'Université de Nanjing,Un modèle de diffusion 4D innovant AlphaFolding est proposé.Intégration de données de simulation de dynamique moléculaire pour apprendre les structures dynamiques des protéines. Il s’agit de la première méthode basée sur un modèle de diffusion capable de prédire les trajectoires des protéines sur plusieurs pas de temps simultanément.
Les résultats de validation sur des ensembles de données de référence montrent que le nouveau modèle présente une grande précision dans la prédiction de structures 3D dynamiques contenant jusqu'à 256 acides aminés et couvrant 32 pas de temps, et peut capturer efficacement la flexibilité locale dans les états stables ainsi que les changements conformationnels importants.
Les résultats associés, intitulés « Diffusion 4D pour la prédiction dynamique de la structure des protéines avec guidage de référence et de mouvement », ont été sélectionnés pour la conférence internationale de premier plan AAAI 2025, et la pré-impression a été publiée sur arXiv.

Adresse du document :
https://arxiv.org/abs/2408.12419
Suivez le compte officiel et répondez « 4D Diffusible Proteins » pour obtenir le PDF complet
Le projet open source « awesome-ai4s » rassemble plus de 200 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Il existe encore une lacune dans l’étude de la prédiction de la structure dynamique des protéines
Le modèle AlphaFolding peut être considéré comme une avancée importante dans la recherche en biologie structurale. La biologie structurale est une science qui explique les phénomènes de la vie en se basant sur l’étude de la structure, du mouvement et de l’interaction des macromolécules biologiques telles que les protéines. Elle est désormais devenue le courant dominant de la biologie moléculaire.
Ces dernières années, les progrès de la technologie d’apprentissage profond, associés à la croissance exponentielle des données expérimentales sur la structure des protéines dans la Protein Data Bank (PDB), ont conduit à un certain nombre de percées importantes dans le domaine de la prédiction de la structure des protéines. Parmi eux, le plus connu est AlphaFold2.Il utilise les derniers algorithmes d’intelligence artificielle pour obtenir des prédictions précises des structures protéiques proches de la précision expérimentale.Les résultats connexes ont été classés parmi les dix plus grandes avancées scientifiques de 2020 par Science.
Par coïncidence, en juillet 2021, RoseTTAFold, développé par l'équipe du biologiste David Baker de l'Université de Washington, a construit un réseau neuronal « à trois voies ».La structure tridimensionnelle d’une protéine avec une séquence donnée peut être résolue en une douzaine de minutes.
De plus, la disponibilité de référentiels de données à grande échelle a facilité le développement d’études d’échantillonnage de conformation des protéines. Par exemple, Microsoft Research a développé un cadre d’apprentissage profond appelé Distributional Graphformer (DiG).Vise à prédire la distribution des structures moléculaires en équilibre.Bien que les simulations de dynamique moléculaire traditionnelles et les méthodes d’échantillonnage améliorées puissent obtenir la distribution d’équilibre des molécules, ces méthodes sont coûteuses en termes de calcul et prennent du temps, ce qui les rend difficiles à appliquer à des scénarios d’application pratiques complexes. DiG, quant à lui, utilise une technologie d’apprentissage profond pour générer rapidement des conformations réalistes et diverses.
Bien que des avancées majeures aient été réalisées dans la prédiction de la structure des protéines et de leur conformation, l’étude de la structure dynamique est encore relativement en retard. Prenons l’exemple d’AlphaFold2, qui peut prédire avec précision la structure tridimensionnelle des protéines.Cependant, il ne peut prédire que la structure statique d’une protéine à un moment donné et n’est pas encore capable de prédire les changements dynamiques.
En mai 2024, DeepMind a publié la version améliorée d'AlphaFold3, qui peut prédire la structure et les interactions de toutes les molécules biologiques avec une « précision atomique » sans précédent, y compris la structure 3D des protéines, des acides nucléiques et des molécules plus petites, et révéler comment elles sont combinées.Cependant, sa prédiction des structures 3D dynamiques des molécules biologiques présente encore de grandes limites.
Par conséquent, le modèle de diffusion 4D innovant récemment proposé dans cette étude vise en fait à combler cette lacune de recherche, en se concentrant sur les caractéristiques dynamiques de la structure des protéines et en fournissant de nouvelles idées pour une compréhension plus approfondie de la fonction des protéines. Les chercheurs ont pleinement profité des données de simulation de dynamique moléculaire (MD) de haute qualité.Générez des structures protéiques dynamiques avec des représentations complètes de la chaîne latérale pour des protéines complexes constituées de centaines d'acides aminés.Cela élargira le champ d’application des simulations MD, leur permettant de prédire le comportement dynamique de systèmes protéiques plus grands et plus complexes et d’améliorer notre compréhension des propriétés dynamiques des protéines.
Démontre une grande précision dans la prédiction des trajectoires de mouvement des protéines sur plusieurs pas de temps
Les modèles de protéines statiques sont relativement faciles à construire, mais comment les modèles de protéines dynamiques doivent-ils être représentés ? Pour résoudre ce problème,Les chercheurs ont utilisé la méthode de représentation de la structure des protéines basée sur le cadre d'AlphaFold2 et l'ont étendue à la dimension temporelle.Décrire la transformation structurelle au fil du temps.
Dans la modélisation statique des protéines, les protéines sont composées d'une série de résidus d'acides aminés, chacun étant paramétré par une structure principale. Dans cette étude, les chercheurs ont défini des protéines dynamiques comme des systèmes contenant N résidus d’acides aminés et dont les structures principales se transforment en S pas de temps. Ces cadres sont transformés à l'aide de transformations euclidiennes spéciales pour préserver l'orientation du cadre local par rapport au cadre de référence global.
Toutes les coordonnées atomiques supplémentaires dans les protéines sont organisées en groupes rigides en fonction de leur dépendance aux angles dièdres pour garantir l'intégrité structurelle chimique. Au sein de chaque groupe rigide, les positions et orientations relatives de tous les atomes restent inchangées. Combiné avec des paramètres de transformation, le modèle peut reconstruire toutes les positions atomiques à partir de coordonnées expérimentales idéalisées dans la dimension temporelle.
Sur cette base, la figure ci-dessous montre la méthode de construction de l'ensemble du modèle de recherche : le modèle de diffusion prend la structure de référence et la séquence de résidus correspondante (séquence de résidus d'acides aminés) en entrée, et génère une série de structures protéiques 3D débruitées (structure 3D débruitée) en sortie.

Les chercheurs ont utilisé un intégrateur de structure 3D et GeoFormer pour intégrer respectivement la structure protéique 3D et la séquence de résidus. Invariant Point Attention (IPA) met à jour les fonctionnalités des nœuds en incorporant des informations de structure explicites sur les résidus.
Le module Réseau de référence et alignement de mouvement capture des séquences dynamiques de protéines 3D basées sur des structures de protéines 3D de référence. L'ensemble du modèle génératif est construit comme un modèle de diffusion basé sur les scores, où les intégrations de fonctionnalités des nœuds et des arêtes sont mises à jour respectivement via les modules EdgeUpdate et BackboneUpdate.
Après avoir construit le modèle, les chercheurs ont mené des expériences comparatives sur le cadre proposé avec DFF et Flow-Matching dans les tâches actuelles à court terme et à long terme (S2L), en utilisant des ensembles de données comprenant ATLAS et Fast-Folding Proteins.
Les résultats sont présentés dans le tableau suivant : Dans la tâche S2L sur l'ensemble de données ATLAS, la méthode proposée réduit R32 L'erreur a été réduite de 4,60 à 2,12,Amélioration significative de la précision des prévisions à long terme ;Dans la tâche S2L sur l'ensemble de données Fast-Folding, la méthode proposée convertit R32 L'erreur a été réduite de 5,48 à 4,39,Il montre également une bonne capacité prédictive à long terme.Dans le même temps, les performances du modèle proposé sur la tâche O2O sont comparables à celles sur la tâche S2L.Cela indique son excellente capacité de généralisation.


De plus, la méthode est capable de gérer des protéines avec des temps de simulation plus longs, qui présentent des changements dynamiques plus importants à chaque étape de la trajectoire.Les résultats expérimentaux ont en outre vérifié l’efficacité de cette méthode dans la modélisation de la cinétique des protéines.
Pour aller plus loin, les chercheurs ont également visualisé les distributions dynamiques de protéines des deux premiers TIC (composants de cohérence temporelle) générés par le modèle et les ont comparées à des données réelles. Comme le montre la figure ci-dessous,Le nouveau modèle prédit efficacement le comportement dynamique de la protéine et est très cohérent avec la distribution réelle.

* Plus le point est sombre, plus sa fréquence est élevée. La courbe bleue représente la distribution de densité du noyau estimée à partir des données MD.
La figure ci-dessous montre le processus de diffusion inverse à un pas de temps sélectionné, soulignant comment la structure de la protéine devient progressivement plus cohérente au cours du processus de débruitage. Comme vous pouvez le voir,La méthode proposée capture efficacement la dynamique de la protéine et génère des trajectoires raisonnables.

* Les zones roses et jaunes indiquent respectivement l'hélice α et la feuille β
Les propriétés dynamiques des structures protéiques recevront davantage d’attention
Les protéines n’existent pas de manière statique dans l’environnement cellulaire, mais subissent des changements dynamiques complexes. Bien que les méthodes traditionnelles de prédiction de la structure statique aient fait des progrès importants dans la révélation du repliement et des interactions des protéines, elles ne peuvent pas capturer entièrement le comportement dynamique des protéines. donc,La prédiction de la structure dynamique des protéines est devenue l’un des défis majeurs de la biologie structurale et de la biologie computationnelle.Ces dernières années, de plus en plus de chercheurs se sont consacrés à cette direction.
En décembre 2022, l'équipe de Li Ziqing de l'Université du lac de l'Ouest a collaboré avec l'Université de Xiamen et Deruizhi Pharmaceuticals.Nous avons développé ProtMD, un modèle d’IA capable de caractériser les changements conformationnels des protéines et de prédire l’affinité.Il s’agit de la première méthode d’IA qui tente d’analyser la conformation dynamique des protéines. Étant donné une molécule de médicament et une protéine cible, ProtMD prédit les changements dans la structure de la protéine après que la molécule de médicament se lie à la protéine cible dans le corps, déduit la stabilité de la liaison médicament-protéine cible et prédit la fonction du médicament, améliorant ainsi la précision et l'efficacité de la conception de médicaments par IA et accélérant le développement préclinique de médicaments.
Les résultats de recherche pertinents ont été publiés dans Advanced Science sous le titre « Pré-formation de réseaux de correspondance de graphes équivariants avec flexibilité de conformation pour la liaison de médicaments ».
* Adresse du papier :
https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202203796
En août 2024, une nouvelle étude de l'Université du Connecticut a révélé un modèle et un outil de calcul avancés quiCapable de prédire avec précision les caractéristiques dynamiques des protéines et leur tendance à la cristallisation,Les résultats de recherche pertinents ont été publiés dans la revue de science des matériaux Matter sous le titre « La dynamique des protéines informe la structure des protéines : une étude interdisciplinaire de la propension à la cristallisation des protéines ». La recherche se concentre sur la manière dont les mouvements et fluctuations naturels des protéines, c'est-à-dire leurs propriétés de balancement, affectent leurs propriétés fonctionnelles, en particulier la capacité des protéines à former des cristaux de haute qualité.
En octobre 2024, le groupe de recherche dirigé par Zheng Shuangjia de l'Université Jiao Tong de Shanghai, en collaboration avec Star Pharma Technology, l'École de pharmacie de l'Université Sun Yat-sen et l'Université Rice,Un modèle génératif géométrique profond DynamicBind conçu pour l'amarrage dynamique des protéines est proposé.Il peut ajuster efficacement la conformation des protéines de l'état initial prédit par AlphaFold à un état de type holo, fournissant un nouveau paradigme de recherche basé sur l'apprentissage en profondeur et prenant en compte les changements dynamiques des protéines pour le développement de médicaments à l'ère post-AlphaFold.
La recherche connexe a été publiée dans Nature Communications sous le titre « DynamicBind : prédiction de la structure du complexe protéine-ligand spécifique au ligand avec un modèle génératif équivariant profond ».
En résumé, la prédiction de la structure dynamique des protéines peut non seulement nous aider à comprendre les processus vitaux, mais également jouer un rôle important dans le développement de médicaments, la recherche sur les mécanismes des maladies et la biotechnologie industrielle. De la conception de médicaments GPCR, aux interactions protéine-protéine, en passant par la catalyse enzymatique et la recherche sur la pathologie de l'agrégation des protéines, la prédiction de structure dynamique continuera de promouvoir le développement frontalier des sciences de la vie.
Références :
1.https://www.forwardpathway.com/119037
2.https://www.westlake.edu.cn/news_events/westlakenews/academics/202212/t20221208_24193.shtml
3.https://www.cell.com/matter/abstract/S2590-2385(24)00196-6
