HyperAI

Sans Données Expérimentales Pour Guider L'évolution Dirigée Par Les Protéines, Le Groupe De Recherche De L'université Jiaotong De Shanghai a Publié Le Réseau Neuronal Graphique Sensible Au Microenvironnement ProtLGN

特色图像

L’ingénierie des protéines joue un rôle essentiel dans la biotechnologie moderne et la recherche médicale. En modifiant la séquence d’acides aminés d’une protéine, l’ingénierie des protéines peut améliorer ou conférer à la protéine de nouvelles propriétés biochimiques, telles que l’amélioration de l’efficacité catalytique d’une enzyme, l’augmentation de l’affinité d’un médicament ou l’amélioration de sa stabilité thermique. Ces améliorations sont essentielles pour développer de nouveaux médicaments, traiter des maladies et accroître l’efficacité de la biofabrication.

L’ingénierie des protéines nécessite de sélectionner les meilleurs mutants parmi des dizaines de milliers de mutants candidats. Les mutations favorables font référence à des variations génétiques qui peuvent améliorer une ou plusieurs propriétés biochimiques de la protéine, renforcer la stabilité, l'affinité, la sélectivité ou l'efficacité catalytique de la protéine et la rendre plus adaptée à des applications spécifiques. Cependant,Il est coûteux et long de vérifier expérimentalement les mutants hautement adaptatifs. De plus, la combinaison de multiples mutations bénéfiques est souvent affectée par des effets épigénétiques négatifs.Ces facteurs augmentent la complexité de la conception efficace des protéines à des degrés divers, ce qui entraîne une réduction de la fonction de la protéine en raison de mutations.

Ces dernières années, les méthodes de prédiction et de criblage basées sur l’apprentissage profond ont été vérifiées et appliquées dans des applications pratiques : en analysant de grandes quantités de données et en apprenant la relation entre la séquence, la structure et la fonction des protéines, la précision et l’efficacité de la conception des protéines peuvent être améliorées. Cependant, la plupart des méthodes sont basées sur l'alignement de séquences multiples (MSA) ou sur le modèle de langage protéique (PLM) pour extraire des caractéristiques des séquences protéiques, qui présentent de nombreuses limitations.Par exemple, il repose sur la qualité de l’alignement de séquences multiples et est limité par les informations d’homologie ; ou bien cela nécessite une grande quantité de données et des modèles complexes, et entraîne des coûts de formation élevés. De plus, l’application directe de modèles pré-entraînés à de nouvelles tâches pose un défi majeur aux capacités de généralisation et d’expression du modèle.

à cette fin,Le groupe de recherche de Hong Liang à l'Université Jiao Tong de Shanghai a développé un nouveauPOURRIRRéseau neuronal graphique sensible au microenvironnement de LGN,Il peut apprendre et prédire les sites de mutation d'acides aminés bénéfiques à partir de structures protéiques 3D, guider la conception de mutations à site unique et de mutations multi-sites avec différentes fonctions et atteindre un P de plus de 40%.POURRIRLes protéines mutantes à point unique conçues par LGN surpassent leurs homologues de type sauvage. Les résultats ont été publiés dans JCM.

Adresse du document :
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036
Suivez le compte officiel et répondez « protein design » pour obtenir le PDF complet

PPOURRIRLGN : création d'un réseau neuronal léger de débruitage de graphes

PPOURRIRCadre LGN : réseau d'apprentissage des protéines basé sur un réseau neuronal graphique

PPOURRIRLGN est un modèle d'apprentissage de représentation de protéines basé sur un réseau neuronal graphique. Son architecture de base est la suivante :


PPOURRIRArchitecture LGN

* Graphique kNN (graphique des k-plus proches voisins) :

Les résidus d'acides aminés de la protéine d'entrée sont utilisés comme nœuds dans le graphique, et la distance spatiale entre la base du bord et les résidus d'acides aminés est déterminée via l'algorithme du k-plus proche voisin, construisant ainsi la structure topologique de la protéine, fournissant une base pour le traitement ultérieur du réseau neuronal graphique.

* Réseau neuronal graphique équivariant (GNN) :

Dans l'espace tridimensionnel, la structure d'une protéine peut être tournée ou réfléchie. En tant que couche réseau principale, le GNN équivariant est conçu pour reconnaître et maintenir cette structure d'invariance rotationnelle, c'est-à-dire que quelle que soit la manière dont le graphique protéique est tourné, la sortie du réseau doit être cohérente pour la même structure protéique.

* Incorporation de nœuds :

Dans une représentation graphique d'une protéine, chaque résidu d'acide aminé est représenté comme un nœud dans le graphique afin que les modèles d'apprentissage automatique puissent capturer et comprendre les relations complexes entre les nœuds.

* Couche de sortie et score (couche de lecture et score) :

Les représentations de nœuds apprises par GNN équivariant sont utilisées pour identifier les sites de mutation bénéfiques et prédire les effets potentiels des mutations sur la fonction ou la structure des protéines. Parallèlement, en tant que dernière couche du modèle, les résultats de prédiction sont convertis en scores quantitatifs.

* Validation :

Des méthodes biologiques expérimentales telles que le test immuno-enzymatique (ELISA) et l'analyse de stabilité thermique par fluorescence différentielle à balayage (DSF) ont été utilisées pour vérifier expérimentalement les mutants prédits par le modèle et tester leurs fonctions biologiques.

PPOURRIRProcessus de formation LGN : formation-prédiction-réglage fin

PPOURRIRLe processus de formation de LGN est illustré dans la figure ci-dessous, qui comprend la formation, la prédiction et le réglage fin du modèle :


PPOURRIRProcessus de pré-formation et de prédiction LGN

* Préformation auto-supervisée :

PPOURRIRLGN est d'abord auto-supervisé et pré-entraîné sur des protéines de type sauvage pour la tâche de débruitage de type AA.

Les informations de coordonnées tridimensionnelles contenues dans le graphique d'entrée font partie des attributs du nœud et sont utilisées pour représenter plus précisément les positions des résidus d'acides aminés dans l'espace tridimensionnel de la protéine.

Les informations de coordonnées tridimensionnelles et les propriétés physiques et biochimiques des acides aminés (telles que le type d'acide aminé, SASA, le facteur B, etc.) constituent ensemble les propriétés des nœuds et des arêtes du graphique d'entrée. Ces propriétés sont utilisées pour construire le graphe KNN, dans lequel chaque nœud (résidu d'acide aminé) est connecté à un autre en fonction de sa distance spatiale par rapport aux autres nœuds.

PPOURRIRProcessus d'apprentissage auto-supervisé de LGN

* Couche de convolution de graphe équivariant (EGC) :

Les réseaux neuronaux à graphes équivariants (couches EGC) sont utilisés en pré-formation pour traiter le graphe protéique d'entrée. Grâce à cette couche, le modèle peut apprendre les intégrations de nœuds qui restent inchangées lors des transformations de rotation et de translation, aidant ainsi à traiter les structures de différentes protéines.

La couche EGC est le cœur du réseau neuronal graphique, qui peut traiter les données de structure graphique et maintenir la sensibilité aux changements dans la structure spatiale des protéines, ce qui est crucial pour comprendre la structure tridimensionnelle des protéines.

Dans le processus d'apprentissage auto-supervisé, la couche EGC reçoit un graphique de protéines de type sauvage bruyant en entrée et génère des représentations incorporant les nœuds qui prennent en compte les relations spatiales entre les résidus d'acides aminés.

* Attributs d'entrée bruyants :


Pendant la formation, du bruit est injecté dans les propriétés d’entrée de la protéine de type sauvage pour simuler des mutations aléatoires dans la nature.

* Prédiction du tir zéro :

Les flèches bleues indiquent que lors de l’examen des mutations protéiques, le modèle utilise les connaissances acquises pendant la phase de pré-formation pour prédire l’impact probable de la mutation sur la fonction protéique.

* Évaluations biochimiques humides :

La combinaison des prédictions mutantes avec l'évaluation expérimentale humide permet de mettre à jour les modèles pré-entraînés pour mieux s'adapter à des protéines et des fonctions spécifiques.

* Réglage fin:

Comme le montre la partie flèche verte du diagramme, combiné à l'évaluation des expériences humides, le modèle pré-entraîné peut être mis à jour et optimisé en fonction de protéines et de fonctions spécifiques pour améliorer la précision et l'adaptabilité de la prédiction.

Afin d'utiliser davantage les informations biologiques antérieures pour améliorer la généralisation et l'expressivité du modèle, les chercheurs ont également pris trois mesures supplémentaires : * Bruit du type d'acide aminé d'entrée pour simuler des mutations aléatoires dans la nature ; * Dans le mécanisme de notation de la fonction de perte pour la prédiction des nœuds d’acides aminés, le lissage des étiquettes a été introduit pour encourager les substitutions entre acides aminés similaires ;

* Utiliser une stratégie d'apprentissage multitâche pour permettre au modèle pré-entraîné d'apprendre plusieurs cibles de prédiction, formant ainsi un modèle d'apprentissage de représentation graphique « un mot, plusieurs utilisations ».

Explorer le potentiel de l'évolution dirigée par les protéines : PPOURRIRLGN fournit des stratégies efficaces

Afin de vérifier PPOURRIRAfin de vérifier l'exactitude du LGN dans la prédiction de l'activité des protéines mutantes, cette étude a mené un travail de validation approfondi sur diverses fonctions biologiques de plusieurs protéines pour garantir que PPOURRIRL'universalité des LGN, qui comprennent les anticorps VHH, diverses protéines fluorescentes (telles que les protéines fluorescentes vertes, bleues et oranges) et les endonucléases (KmAgo), couvre des cibles de modification fonctionnelle courantes dans l'ingénierie des protéines, telles que la stabilité thermique, l'affinité de liaison, la luminosité de la fluorescence et l'activité de clivage de l'ADN simple brin.

Les données expérimentales montrent que même en l’absence de données expérimentales ou en l’absence de données expérimentales sur des protéines similaires, PPOURRIRLe LGN peut toujours atteindre le taux de prédiction de réussite de mutation ponctuelle de 40% et, dans certains cas, peut améliorer simultanément plusieurs fonctions biologiques.

PPOURRIRLGN et protéines fluorescentes : modèle prédictif de la capacité de migration

Les chercheurs ont utilisé PPOURRIRLe modèle LGN a été affiné pour la protéine fluorescente verte (GFP) afin de développer une fonction de notation optimisée spécifiquement pour l'intensité de la fluorescence. 1 000 mutants GFP marqués ont été sélectionnés au hasard dans la base de données Deep Mutation Scanning (DMS) pour un ajustement précis de la formation, ce qui a amélioré la précision du modèle dans la prédiction des variations d'intensité de fluorescence.


Résultats expérimentaux sur les protéines fluorescentes

* La structure de la protéine est représentée à gauche, les sphères rouges mettant en évidence les résidus d'acides aminés mutés

* Les données d'intensité de fluorescence sont présentées à droite, comparant différents mutants avec WT

La figure a évalue l’utilité d’une fonction de notation de la condition physique spécifique à une fonction apprise à partir d’un petit nombre de variantes de protéines fluorescentes vertes (GFP) marquées. Parmi les 10 mutants,Cinq d’entre eux ont montré une intensité de fluorescence plus élevée que le type sauvage (WT), et le mutant le plus performant avait une intensité de fluorescence deux fois supérieure à celle du WT.

De plus, l'expérience a examiné les performances de la même fonction de notation sur la protéine fluorescente orange (orangeFP), qui provient d'une famille de protéines différente, possède une région active différente et présente une homologie de séquence d'environ 21% par rapport à GFP. Les chercheurs ont utilisé le P affinéPOURRIRLGN a classé les mutants ponctuels d'orangeFP et a sélectionné les 10 meilleures variantes pour l'expression et les tests par dosage humide. Parmi ces mutants,Sept d’entre eux ont montré une intensité de fluorescence plus élevée que WT, et ce résultat met en évidence la forte capacité de migration du modèle.

PPOURRIRAnticorps LGN et VHH : zéro échantillon PPOURRIRPerformances du LGN

Les expérimentateurs ont utilisé PPOURRIRLe modèle LGN, en l'absence de données expérimentales, a été pré-entraîné sur environ 30 000 structures protéiques non marquées, et les 10 premiers mutants parmi les variantes d'anticorps VHH avec la prédiction de fitness la plus élevée ont été sélectionnés pour une évaluation expérimentale humide.


PPOURRIRRésultats des anticorps VHH conçus par LGN

(a) La structure de l'anticorps VHH est indiquée à gauche, et l'affinité de liaison de l'anticorps VHH et de ses mutants à point unique est indiquée à droite.

(b) : Le côté gauche montre la structure de l'anticorps VHH, où les mutations se produisent à différents sites, et le côté droit montre la température du point de fusion de l'anticorps VHH et de ses mutants à point unique

Trois mutants ont montré d’excellentes performances en termes d’affinité de liaison et de stabilité thermique.Cela confirme que PPOURRIRL'efficacité du LGN pour guider la conception des mutations des anticorps VHH, en particulier pour améliorer les performances des anticorps. PPOURRIRLa stratégie d’apprentissage auto-supervisé de LGN fournit un outil puissant pour l’ingénierie des protéines, permettant une prédiction précise des mutations en l’absence de données expérimentales.

PPOURRIRProtéines LGN et Ago : trouver la combinaison optimale de mutations ponctuelles

Les chercheurs ont utilisé PPOURRIRLGN a effectué une notation combinée de 12 mutations ponctuelles connues et a éliminé les 5 principaux candidats à la mutation d'ordre élevé sur 2 à 7 sites, pour un total de 30 mutants, afin de trouver des variantes de protéines Ago avec de meilleures performances grâce à une évaluation par expérience humide.


PPOURRIRMutants KmAgo conçus par LGN et résultats expérimentaux

* En haut à gauche : Structure de la protéine KmAgo

* En haut à droite : Activités optimales des mutants KmAgo avec différents nombres de sites de mutation. Cela peut indiquer comment l'activité change à mesure que davantage de sites de mutation sont ajoutés.

* Milieu et inférieur : Activité de clivage de KmAgo et de ses mutants à sites de mutation multiples

Les résultats expérimentaux montrent :

* Amélioration de l'activité :Comparés au type sauvage (WT), les mutants de 90% ont montré une activité de clivage de l'ADN améliorée.

* Meilleur mutant :Le meilleur mutant était un mutant à 7 sites avec une activité 8 fois supérieure à celle du WT.* Avantages des mutants d’ordre supérieur :Les mutants d'ordre supérieur ont tendance à montrer une activité plus élevée que les mutants d'ordre inférieur, à la fois en termes d'amélioration de l'activité maximale et d'amélioration moyenne.

PPOURRIRLe modèle LGN a pu identifier avec succès des mutants à gain de fonction élevé et des effets épistatiques positifs lors de la combinaison de sites de mutation uniques. Cela confirme que PPOURRIRL'efficacité du LGN pour guider la conception des mutations de la protéine Ago, en particulier pour améliorer les performances des anticorps.

PPOURRIRComparaison de LGN avec d'autres modèles auto-supervisés : plus efficace et plus précis

Dans la dernière étude, les scientifiques ont utilisé PPOURRIRLe modèle LGN prédit la forme physique des protéines dans l'ensemble de données d'analyse des mutations profondes (DMS) et est comparé à d'autres modèles d'apprentissage auto-supervisé.


Effets de prédiction des protéines de différents modèles

a : Efficacité et efficience d'inférence des modèles d'apprentissage profond à tir nul

b : Performances de prédiction des effets de plusieurs sites de mutation

c : Amélioration des performances de prédiction des mutations d'ordre élevé

Les résultats expérimentaux montrent que PPOURRIRLGN est le plus performant parmi tous les modèles comparés.Il prédit non seulement avec précision la forme physique des protéines, mais utilise également le nombre minimum de paramètres pouvant être entraînés.Ceci est important car moins de paramètres signifie que le modèle est moins cher à former et à affiner, et cela signifie également que le modèle peut apprendre efficacement sur des données moins étiquetées.

Dans la dernière étape de l’expérience, les chercheurs ont utilisé certaines des étiquettes expérimentales disponibles pour améliorer le réglage fin du modèle, améliorant ainsi encore la précision des prédictions.Les résultats montrent que PPOURRIRLGN surpasse considérablement les autres méthodes, en particulier lorsqu'il s'agit de mutants d'ordre élevé.

PPOURRIRPrédiction LGN de la localisation subcellulaire des protéines : analyse complète de la structure tridimensionnelle des protéines

Dans une étude révolutionnaire, les scientifiques ont utilisé PPOURRIRLe modèle LGN est utilisé pour prédire la localisation subcellulaire des protéines (PSL), c'est-à-dire l'emplacement spécifique de la protéine dans la cellule, qui est étroitement lié à la fonction de la protéine.


Prédiction du modèle de localisation subcellulaire des protéines

L'équipe de recherche a d'abord utilisé PPOURRIRLe modèle LGN a analysé 9 366 protéines marquées, chacune constituée de sa représentation au niveau des acides aminés. Par la suite, il a été évalué sur 2 738 protéines tests pour prédire 10 emplacements possibles de ces protéines dans la cellule. Les résultats expérimentaux montrent que PPOURRIRLGN surpasse considérablement les méthodes de base existantes basées sur la séquence d'acides aminés ou les informations d'homologie en termes de précision de prédiction.

Conclusion : La « révolution de l’IA » en biomédecine n’a pas de frontières

Depuis AlphaFold, l’intelligence artificielle a continuellement repoussé les limites cognitives de l’ingénierie biomédicale, mais l’apprentissage en profondeur est toujours limité par des données de haute qualité. Pour cette limitation, PPOURRIRLa formation à l’apprentissage zéro coup de LGN pourrait apporter la réponse. Alors que nous entrons dans l’ère de l’AGI sans aucune donnée, la prochaine génération de biologistes structuraux ne sera probablement plus principalement composée d’experts en méthodes expérimentales, mais sera davantage chargée d’interpréter, de concevoir et d’exécuter des expériences basées sur la structure pour prouver ou réfuter des mécanismes en biologie, ou pour concevoir de nouvelles fonctions protéiques et des traitements cliniques.