8 Fois Plus Rapide Que La Meilleure Technologie : Hou Tingjun Et Al. De L'université Du Zhejiang a Proposé ResGen, Un Modèle De Génération Moléculaire 3D Basé Sur Des Poches De Protéines

Auteur : Binbin
Rédacteur en chef : Li Baozhu, Sanyang
L'équipe de recherche de l'Université du Zhejiang et du Laboratoire de Zhijiang a proposé un modèle de génération moléculaire 3D basé sur des poches de protéines - ResGen. Par rapport à la technologie optimale précédente, la vitesse est augmentée de 8 fois et elle a généré avec succès des molécules de type médicament avec une énergie de liaison plus faible et une diversité plus élevée.
Dans le passé, la découverte de médicaments innovants reposait souvent sur des formules anciennes ou sur des événements accidentels lors d’expériences, comme dans le cas de la pénicilline. Au fil des années, les progrès de la biologie moléculaire et de la chimie computationnelle ont permis au paradigme de conception de médicaments de passer d’un dépistage à l’aveugle à une conception rationnelle.
Malgré cela, la conception de la recherche et du développement de médicaments reste un processus en plusieurs étapes avec de longs liens et des coûts élevés, et l’amélioration de l’efficacité à chaque étape présente une valeur considérable. Ces dernières années, avec l’application généralisée de technologies telles que l’IA et le big data, la conception de médicaments assistée par l’IA est devenue de plus en plus mature grâce à des expériences répétées. L’IA fait l’objet de mises à niveau et de réformes visant à améliorer l’efficacité et la qualité dans de nombreux aspects de la recherche et du développement de médicaments.
Parmi eux, les modèles de génération moléculaire de haute qualité peuvent améliorer efficacement l’efficacité de la découverte de composés principaux. Actuellement, la plupart des travaux de génération moléculaire utilisent la méthode basée sur les ligands (LBMG), mais cette méthode présente de nombreuses limites, comme l’incapacité à prendre en compte le modèle d’interaction entre les molécules et les cibles. C'est pourquoi les chercheurs accordent de plus en plus d'attention à la méthode de génération moléculaire basée sur la structure (SBMG), c'est-à-dire à la génération de molécules correspondantes en fonction de la structure cible.
Professeur Hou Tingjun et professeur Xie Changyu de l'Université du ZhejiangLaboratoire ZhijiangChen Guangyong et son équipe ont proposé un modèle de génération moléculaire 3D basé sur des poches de protéines - ResGen.Le modèle adopte une stratégie de modélisation multi-échelle parallèle, qui peut capturer des interactions de niveau supérieur entre les cibles protéiques et les ligands et atteindre une efficacité de calcul plus élevée.
Le processus de génération de molécules a été formulé comme une autorégression globale et une autorégression atomique pour mieux tenir compte de la géométrie des poches de protéines. Les résultats de l’étude ont montré que les molécules générées par ResGen ont des structures chimiques plus raisonnables et une meilleure affinité cible par rapport aux méthodes de pointe existantes.

Obtenez le papier :
https://www.nature.com/articles/s42256-023-00712-7
Répondez « Génération de molécules 3D » dans le compte public WeChat pour obtenir le PDF complet
Ensemble de données : La similarité de séquence entre l'ensemble d'apprentissage et l'ensemble de test est inférieure à 40%
L'ensemble de données de formation utilisé dans cette étude est CrossDock2020, qui est utilisé pour la recherche sur l'interaction protéine-petite molécule, en particulier pour évaluer la capacité de liaison des molécules aux poches de protéines.
Les données initiales de cet ensemble de données contiennent plus de 22 millions de paires protéine-ligand. Pour garantir que la similarité de séquence entre l’ensemble d’entraînement et l’ensemble de test soit inférieure à 40%, les chercheurs ont examiné et obtenu environ 100 000 paires protéine-ligand. Le kit de test contient 100 poches de protéines.
Lien vers le jeu de données :
Modèle ResGen : deux modèles autorégressifs hiérarchiques
Le modèle ResGen formule le problème de génération de molécules conditionné par la connaissance des poches de protéines comme un problème autorégressif à deux échelles, l'échelle globale et l'échelle des composants atomiques.Parmi elles, l’autorégression globale signifie que chaque atome généré par ResGen est basé sur les fragments moléculaires et les structures de poches protéiques générés lors des étapes précédentes ; L'autorégression atomique génère à son tour les coordonnées atomiques et la topologie nouvellement ajoutées.
ResGen peut décomposer le processus complet de génération de molécules en un échantillonnage étape par étape, permettant ainsi la génération de la molécule entière de manière autorégressive. De plus, afin de mieux capturer les interactions de niveau supérieur et de réduire les coûts de calcul, l'équipe de recherche a introduit une technologie de modélisation multi-échelle parallèle dans ce problème de génération conditionnelle tridimensionnelle.

* La figure A illustre : Au cours du processus de génération de molécules, les points de croissance sont progressivement confirmés, les atomes sont ajoutés (autorégression globale), les positions des atomes sont confirmées, puis les bords sont ajoutés (autorégression atomique).
* La figure B montre : Les poches et les molécules de référence sont représentées sous forme de caractéristiques atomiques (vecteur) et de coordonnées atomiques (scalaires).
* La figure E illustre le processus de génération de molécules. Le nuage de points gris en i représente les atomes nouvellement générés avec des informations de position ; le nuage de points vert dans ii représente les atomes nouvellement générés avec des types d'atomes supplémentaires. Les cercles rouges représentent les atomes focaux (points de croissance) à chaque étape, et les nombres sont la probabilité que chaque atome devienne un point de croissance.
Vérification des effets : meilleure que le modèle optimal actuel
Tout au long,Il existe deux indicateurs de test largement utilisés pour le modèle de génération moléculaire 3D basé sur des poches de protéines : si le modèle a appris la distribution topologique caractéristique des ligands dans différentes poches de protéines (c'est-à-dire la distribution du graphique moléculaire de la cible) et la distribution des ligands dans les poches.Distribution géométrique(c'est-à-dire la rationalité de la position et de la conformation atomiques).
À cette fin, l’équipe de recherche a mené une série d’évaluations de ResGen et des modèles de pointe existants.
Pour la première mesure de test, l’équipe a évalué les énergies de liaison et les propriétés médicamenteuses des molécules conçues pour les cibles de l’ensemble de test et les cibles thérapeutiques réelles.
Pour le deuxième indicateur de test, l’équipe a conçu une expérience de rationalité conformationnelle et analysé le modèle d’interaction entre la protéine et les petites molécules.
Générer des molécules sur l'ensemble de test : évaluer la capacité de généralisation du modèle

Les résultats de la comparaison ont montré que les molécules générées par ResGen ont surpassé les GraphBP et les molécules générées par Pocket2Mol.
* GraphiqueBP :Un réseau neuronal graphique 3D est utilisé pour extraire des informations sémantiques, puis les atomes sont générés séquentiellement via un modèle de flux autorégressif. Une molécule 3D qui se lie à une protéine donnée est générée en plaçant des atomes de type et de position spécifiques un par un dans un site de liaison donné.
* Pocket2Mol :Il est utilisé pour modéliser les caractéristiques chimiques et géométriques des poches de protéines 3D et adopte un nouvel algorithme efficace pour échantillonner de nouveaux candidats médicaments 3D en fonction des conditions des poches.
Comme le montre la figure ci-dessus, le score Vina représente l’énergie de liaison entre la molécule générée et la cible protéique correspondante. Cet indicateur peut refléter dans une certaine mesure si le modèle détecte l’environnement chimique dans la poche.
La performance de ResGen sur le Vina Score signifie queResGen a de meilleures chances de générer des molécules qui se lient plus étroitement à la cible.L'équipe de recherche pense que cela peut être dû au fait que ResGen utilise une modélisation multi-échelle pour caractériser la structure, car cette structure est plus propice à la capture d'interactions de niveau supérieur entre les poches de protéines et les ligands (telles que les interactions fragment-résidu).
De plus, la possibilité de transformer un composé organique en candidat médicament dépend non seulement de la force de son interaction avec les protéines, mais également de sa similarité avec un médicament et de sa synthétisabilité. Par conséquent, des indicateurs de similarité aux médicaments tels que QED, SA, Lipinski et LogP ont été inclus dans l’évaluation. ResGen a obtenu les meilleurs scores sur les indicateurs SA et Lipinski.Cela suggère que ResGen a un plus grand potentiel pour générer des ligands de type médicament facilement synthétisables pour des poches de protéines non reconnues.
Génération moléculaire par rapport à des cibles réelles : évaluation des performances dans des scénarios réalistes
Afin d'évaluer les performances du modèle dans des scénarios réels de conception de médicaments, l'équipe de recherche a utilisé AKT1 et CDK2 (Cyclin-Dependent Kinase 2) dans la protéine kinase B comme cas, a trié leurs structures cibles et leurs composés ligands avec une activité expérimentale, et a sélectionné au hasard un lot de petites molécules inactives comme contrôles négatifs.

La figure ci-dessus montre la distribution d’affinité de liaison de chaque groupe de molécules. Plus la distribution est à gauche, plus la valeur absolue de l'énergie de liaison est élevée et plus l'affinité est élevée. Les résultats montrent que les molécules générées par ResGen (vert) ont non seulement des scores plus élevés que le contrôle négatif (Random) et d'autres modèles de pointe existants, mais ont également une distribution globale qui est même légèrement meilleure que Active.
Expérience de distribution de longueur de liaison : évaluation de la plausibilité conformationnelle
Dans l'expérience de rationalité conformationnelle, l'équipe de recherche a calculé l'écart quadratique moyen entre les conformations moléculaires générées directement et celles générées par un logiciel conformationnel traditionnel, et a comparé la distribution des longueurs de liaison entre les échantillons générés et les molécules d'entraînement.
Parmi les 7 longueurs de liaison,ResGen obtient les meilleurs résultats parmi les 5 longueurs de liaison, surpassant considérablement GraphBP (environ 10 fois). Comparé aux deux autres modèles de pointe existants, ResGen génère des conformations plus lisses, ce qui met en évidence sa forte capacité à capturer la distribution géométrique complexe à l'intérieur des poches de protéines.

AlphaFold Analyse structurelle prédictive : évaluation de la sensibilité du modèle aux interactions
Pour vérifier si ResGen a appris avec succès les modèles d'interaction qui dépendent de la géométrie cible et de la sensibilité du modèle aux interactions protéine-petite molécule, l'équipe de recherche a généré deux groupes de molécules basés sur la structure cristalline aux rayons X et la structure prédite par AlphaFold, et a comparé les caractéristiques structurelles des deux groupes de molécules.

Molécules générées sur la base de structures cristallines et de structures prédites par AlphaFold. Les ligands blancs sont des ligands co-cristallins et X Å est le RMSD entre la structure prédite et la vraie structure après alignement. Les sphères blanches dans la première colonne représentent les sites de liaison possibles.
La conformation prédite par AlphaFold « ferme » la poche existante dans la conformation cristalline, ce qui fait que le modèle est incapable de générer une molécule complète à la position de la poche d'origine, mais plutôt de générer de petits fragments dans la cavité nouvellement formée, indiquant que le processus de génération de molécules de ResGen dépend sensiblement de la poche protéique donnée.

La poche formée dans la conformation prédite par AlphaFold est moins différente que la poche cristallographique, mais le modèle peut toujours capturer ce changement. Les molécules générées par ResGen occupent davantage de structures de cavité dans la conformation prédite par AlphaFold (comme indiqué dans le cercle rouge sur la figure).
Cette expérience démontre la sensibilité de ResGen à la structure cible et suggère également l’importance d’une structure protéique correcte pour la stratégie SBMG.
「AlphaFold2 déduit la structure des protéinesTutoriel détaillé :
https://openbayes.com/console/public/tutorials/m6k2bdSu30C
Ensemble de données sur la structure des protéines AlphaFold :
https://openbayes.com/console/public/datasets/ETTgyY1oZat/1/overview
Cliquez sur « Lire le texte original » pour accéder en un clic, sans télécharger l'ensemble de données
Hou Tingjun : Dédié à la recherche sur les questions fondamentales de la conception de médicaments assistée par ordinateur
La génération de molécules est une tâche d’optimisation multi-objectifs typique. Les molécules que nous générons doivent non seulement avoir une bonne affinité, mais également une bonne pharmacopée, une faible toxicité, des propriétés synthétiques élevées, etc.
——Hou Tingjun
Dans le processus traditionnel de découverte de médicaments, l’innovation médicamenteuse présente des problèmes tels qu’un long cycle de R&D, des investissements élevés et des risques élevés. La découverte et l’optimisation de composés phares constituent l’étape la plus difficile de tout le processus de découverte de médicaments, qui nécessite de surmonter l’énorme espace chimique des composés (qui peut atteindre l’ordre de 10 à la puissance 60) ; en outre, le processus de sélection, d’optimisation et d’évaluation des composés principaux est très complexe.
Grâce à l’apprentissage en profondeur et à l’analyse des mégadonnées, l’IA peut traiter et interpréter efficacement des données bioinformatiques à grande échelle, découvrir des modèles et des associations cachés dans d’énormes ensembles de données, améliorer la précision de l’identification des cibles médicamenteuses potentielles et accélérer le processus de sélection et de conception de médicaments.
Visant le domaine du développement de médicaments assisté par l'IA,Le professeur Hou Tingjun et son équipe mènent des recherches interdisciplinaires de pointe sur les questions fondamentales de la conception de médicaments assistée par ordinateur.Et a obtenu une série de résultats précieux, tels que :
* Dans le domaine de l'amarrage moléculaire et du criblage virtuel, nous avons proposé une nouvelle méthode de notation pour les interactions protéines-petites molécules basée sur l'apprentissage de la représentation graphique, IGN, et un cadre d'amarrage moléculaire à haut débit basé sur l'apprentissage profond. KarmaDock attendez.
* En termes de génération et d'optimisation de molécules intelligentes, nous avons proposé la méthode de génération de molécules multi-contraintes basée sur des ligands MCMG et la méthode de génération de molécules 3D SurfGen basée sur des surfaces topologiques et des structures géométriques.
*En termes d'évaluation de la pharmacovigilance et de la sécurité moléculaires, nous avons proposé la méthode de prédiction de la toxicité MGA basée sur le modèle d'attention multi-graphes et le système logiciel de prédiction de la pharmacovigilance ADMETlab2.0.
En outre, l’équipe du professeur Hou Tingjun a également développé une méthode d’interprétabilité des modèles d’IA (SME) basée sur le masquage des sous-structures, qui a proposé une solution à l’interprétabilité des modèles d’IA.
Bien que la grande valeur de l’IA dans le développement de médicaments devienne de plus en plus importante, en tant que recherche émergente, il peut encore y avoir des défis correspondants dans sa mise en œuvre réelle, et ceux-ci deviendront précisément les principales orientations de recherche à l’avenir.
À cet égard, le professeur Hou Tingjun a déclaré :Comment améliorer efficacement la capacité prédictive des méthodes de prédiction de propriétés basées sur l'IA, la capacité prédictive des fonctions de notation basées sur l'IA dans le criblage virtuel et la précision de prédiction des paramètres clés de pharmacovigilance et des points finaux de toxicité seront les orientations et les défis sur lesquels il faudra se concentrer dans le domaine de la découverte de médicaments assistée par l'IA à l'avenir.
Références :
https://mp.weixin.qq.com/s/cxpbeGmrHULcWsbVbvQmJA