HyperAI

L'Université Westlake Utilise Transformer Pour Analyser Les Caractéristiques D'auto-assemblage De Milliards De Peptides Et Déchiffrer Les Règles D'auto-assemblage

il y a 2 ans
Information
Xuran Zhang
特色图像

Les polypeptides sont des substances biologiquement actives composées de deux ou plusieurs acides aminés par l'intermédiaire de liaisons peptidiques, qui peuvent former des structures protéiques de niveau supérieur par repliement et formation hélicoïdale. Les peptides ne sont pas seulement associés à de multiples activités physiologiques, mais peuvent également s'auto-assembler en nanoparticules et participer à la détection biologique, à l'administration de médicaments et à l'ingénierie tissulaire.
Cependant, la composition séquentielle des peptides est trop diversifiée. Seuls 10 acides aminés peuvent former plus de 10 milliards de peptides. Il est donc difficile de mener une étude complète et systématique sur ses propriétés d’auto-assemblage et d’optimiser la conception de peptides auto-assemblés.
À cette fin, le groupe de recherche de Li Wenbin à l'Université Westlake a utilisé un réseau de régression basé sur Transformer pour prédire les propriétés d'auto-assemblage de dizaines de milliards de peptides et a analysé les effets des acides aminés à différentes positions sur les propriétés d'auto-assemblage, fournissant un nouvel outil puissant pour l'étude des peptides auto-assemblés.

Auteur | Xuecai

Rédacteur | Sanyang

Les peptides sont des substances biologiquement actives composées de deux ou plusieurs acides aminés via des liaisons peptidiques.Les peptides sont faciles à synthétiser, biodégradables, biocompatibles et présentent une riche diversité chimique, peut former des nanomatériaux dotés de fluorescence, de conductivité semi-conductrice ou de magnétisme. C’est pour cette raison que les peptides ont reçu une attention considérable au sein de la communauté de recherche scientifique.

Cependant, c’est précisément en raison de la diversité des peptides queIl existe actuellement un manque de méthodes pour prédire sa tendance à l'auto-assemblage (AP, Aggregation Propensity), il est difficile de le transformer en une structure ordonnée. Actuellement, seul un très petit nombre de peptides peuvent s’auto-assembler pour former des structures supramoléculaires répondant aux exigences et être mis en œuvre dans des applications industrielles.

Figure 1 : Fluorescence spécifique de différentes sondes auto-assemblées à l'hCA, à l'avidine et à la trypsine

Au cours des dernières décennies, les peptides auto-assemblés ont été principalement découverts grâce à des expériences biologiques.. Cependant, les expériences nécessitent souvent une longue période de temps et comportent certains biais, ce qui n’est pas propice à une recherche complète et systématique sur un grand nombre de peptides.

Ces dernières années, le criblage informatique a été largement utilisé dans la conception de peptides auto-assemblés.. En 2015, Frederix et al. utilisé la dynamique moléculaire à gros grains (CGMD) pour analyser l'AP des tripeptides. Cependant, à mesure que le nombre d’acides aminés augmente, le nombre de séquences peptidiques augmente de manière exponentielle, ce qui augmente considérablement le coût du CGMD.

C’est pourquoi certains chercheurs ont combiné l’IA et la CGMD pour réduire le coût d’analyse des méthodes traditionnelles. Cependant, AI-CGMD nécessite une grande quantité de données de formation. On estime qu’il existe plus de 10 milliards de séquences de décapeptides, nécessitant 3,2 millions de données de séquences peptidiques. Sur la base des raisons ci-dessus, il n’existe actuellement aucune prédiction AP pour les peptides (pentapeptides) composés de plus de 5 acides aminés.

Pour résoudre ces problèmes,Le groupe de recherche de Li Wenbin à l'Université Westlake a utilisé un réseau de régression basé sur le transformateur (TRN) combiné au CGMD pour prédire les propriétés d'auto-assemblage de dizaines de milliards de peptides., les AP des pentapeptides et des décapeptides ont été obtenus, et l'influence des acides aminés à différentes positions sur les AP des peptides a été obtenue. Ce résultat a été publié dans « Advanced Science ».

Les résultats connexes ont été publiés dans « Advanced Science »

Lien vers l'article :

https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202301544

Procédures expérimentales

Ensemble d'entraînement : échantillonnage d'hypercube latin

Dans un premier temps, 8 000 séquences peptidiques ont été examinées à l’aide d’un échantillonnage par hypercube latin. L'AP des séquences peptidiques criblées a été obtenue grâce à l'analyse du modèle CGMD.

Construction de modèles : codage et décodage

Les chercheurs ont construit un modèle de prédiction AP basé sur TRN.Le modèle se compose d'un encodeur Transformer et d'un décodeur perceptron multicouche (MLP).. L'encodeur Transformer se compose d'une couche d'intégration d'entrée, d'un encodeur de position et d'un bloc d'encodage.

La couche d'intégration d'entrée est utilisée pour cartographier les unités constitutives du peptide (c'est-à-dire les acides aminés) dans un espace continu à 512 dimensions, et l'encodeur de position génère les informations de position des acides aminés. Le bloc d'encodage comprend un réseau d'auto-attention et un réseau neuronal à propagation directe.

L'encodeur Transformer génère finalement une séquence peptidique représentée par une couche cachée. Cette séquence est compressée en un vecteur unidimensionnel après 5 fois la réduction de dimensionnalité MLP. La dernière couche du décodeur MLP génère l'AP du peptide.

Figure 2 : Flux de travail du modèle TRN

a : Modèles atomiques de l'hélice α et du feuillet β et modèle CG de l'hélice α ;

b : Le processus de sortie des données de formation via CGMD ;

c : Schéma du modèle TRN.

Résultats expérimentaux

Prédiction du modèle : améliorée par 54.5%

Les chercheurs ont comparé les performances de prédiction AP du modèle TRN avec d'autres modèles non d'apprentissage profond (machine à vecteurs de support SVM, forêt aléatoire RF, algorithme de proximité NN, régression bayésienne BR et régression linéaire LR).

Avec seulement 8 000 données d'entraînement, le coefficient de détermination R2 du modèle dépassait 0,85, soit 11,81 TP3T de plus que SVM et 54,51 TP3T de plus que RF. .

Figure 3 : Comparaison des performances du modèle TRN et d'autres modèles non basés sur l'apprentissage profond

À mesure que la quantité de données de formation augmente, les performances du modèle TRN augmentent.  Lorsque le nombre de données d’entraînement atteint 54 000, l’erreur absolue moyenne (MAE) du modèle TRN est de 0,05 et le R2 est de 0,92.

Figure 4 : Effet des données d'entraînement sur les performances du modèle TRN

Les résultats ci-dessus montrent que, par rapport aux modèles non-deep learning,Le modèle TRN peut atteindre des taux de prédiction plus élevés avec moins de données de formation.. Parallèlement, à mesure que la quantité de données de formation augmente, les performances du modèle TRN s’améliorent.

Hydrophilie : APHC  Révision

Il est rapporté qu'en plus de l'AP,L'hydrophilie (log P) du peptide affecte également l'auto-assemblage du peptide.

Lorsque l'AP augmente de faible à élevé, la médiane du log P diminue, indiquant que les peptides hydrophiles ont une faible capacité d'agrégation. Cependant, l'AP des peptides avec log P entre 0,25 et 0,75 a une large étendue, distribuée entre 0 et 1, indiquant que la relation entre les deux n'est pas étroite et qu'il existe d'autres facteurs qui affectent l'AP des peptides.

Figure 5 : Relation entre AP et log P

a : Corrélation entre AP et log P de 3,2 millions de pentapeptides ;

b : Distribution de l'AP dans différents intervalles ;

c : Distribution du log P dans différents intervalles AP.

Pour découvrir les effets de l'AP et du log P sur l'auto-assemblage des peptides, les chercheurs ont utilisé le log P pour corriger l'AP et ont obtenu l'APHC . AP corrigéHC  Il est possible de distinguer l’auto-assemblage et la précipitation des peptides, et de filtrer les peptides qui peuvent former des hydrogels.

Figure 6 : APHC  Relation avec log P

a : AP de 3,2 millions de pentapeptidesHC  Corrélation avec log P ;

b: APHC  Répartition dans différents intervalles ;

c: log P à différents APHC  La distribution des intervalles.

Règles d'auto-assemblage : l'influence des acides aminés à différentes positions

Les effets de 20 acides aminés à différentes positions dans le pentapeptide sur l'APHC  Après avoir étudié l'influence de différents acides aminés et leur distribution sur les propriétés d'auto-assemblage des polypeptides, les chercheurs ont résumé les effets de différents acides aminés et leur distribution sur les propriétés d'auto-assemblage des polypeptides et les ont divisés en 5 groupes.

Le premier groupe d’acides aminés comprend la phénylalanine (F), la tyrosine (Y) et le tryptophane (W). Ce groupe d'acides aminés présente un empilement π-π et une forte hydrophobicité, ce qui contribue le plus à l'auto-assemblage des peptides.. Parmi eux, W a la plus forte hydrophobicité et est le plus hydrophobe envers AP.HC  L'impact de est le plus grand, ce qui est cohérent avec les observations de WWWWW.

Figure 7 : Rapport de distribution de 20 acides aminés à différentes positions dans différents intervalles AP

Lorsque F, Y et W sont aux positions 3 à 5, en particulier à la position 3, ils contribuent le plus fortement à l'auto-assemblage des polypeptides. Cela peut être dû au fait que l'acide aminé en position 3 possède un degré de liberté plus élevé, ce qui facilite l'auto-assemblage des polypeptides par interaction π-π.

Figure 8 : diagramme d’empilement π-π

Cependant, ces acides aminés aromatiques sont de puissants accepteurs de protons en 5ème position et interagiront avec d'autres polypeptides, augmenteront la distance entre les cycles benzéniques et affaibliront l'interaction π-π au sein de la molécule.

Le deuxième groupe d'acides aminés comprend l'isoleucine (I), la leucine (L), la valine (V) et la cystéine (C)  .Étant donné que les chaînes latérales de ces acides aminés excluent l’eau les unes des autres, elles sont hautement hydrophobes et contribuent fortement à l’auto-assemblage des peptides.. Ce groupe d'acides aminés est souvent distribué aux deux extrémités du polypeptide, en particulier à l'extrémité N du polypeptide auto-assemblé.

Figure 9 : Interactions hydrophobes des acides aminés

Le troisième groupe d’acides aminés comprend l’histidine (H), la sérine (S) et la thréonine (T). Ce groupe d'acides aminés possède des chaînes latérales polarisées qui peuvent améliorer la capacité d'auto-assemblage des peptides par liaison hydrogène. Cependant, la liaison hydrogène est plus faible que l'empilement π-π, donc à AP élevéHC  Dans le polypeptide, la teneur du troisième groupe d’acides aminés est relativement faible.

T et S ont tendance à occuper les deux extrémités du polypeptide, en particulier l'extrémité N-terminale, ce qui est propice à la formation de liaisons hydrogène. Et H restera loin des deux extrémités du polypeptide.

Figure 10 : Effet des chaînes latérales polaires sur la structure peptidique

Le quatrième groupe d'acides aminés comprend la méthionine (M) et la proline (P)  . M et P dans des AP différentsHC  La distribution des peptides est fondamentalement la même et n’a qu’un léger impact sur les indicateurs spécifiques des peptides.

Le cinquième groupe d’acides aminés n’est pas propice à l’auto-assemblage des peptides, y compris l'acide aspartique chargé négativement (D) et l'acide glutamique (E), la lysine chargée positivement (K) et l'arginine (R), l'asparagine hautement polaire (N) et la glutamine (Q), ainsi que l'alanine sans chaîne latérale (A) et la glycine (G).

Cependant, D et E à l'extrémité C et R et K à l'extrémité N peuvent former un groupe de tête doublement chargé, ce qui favorise l'auto-assemblage du polypeptide en s'attirant mutuellement par des charges opposées et en formant des ponts salins. N et Q sont trop polaires et favoriseront la dissolution du peptide. Cependant, A et G manquent d’interaction évidente, ce qui n’est pas propice à l’auto-assemblage des polypeptides.

Figure 11 : Effet de l'interaction de Coulomb sur la structure du peptide

Vérification expérimentale : fondamentalement cohérente avec les résultats CGMD et TEM

Pour confirmer les prédictions du modèle TRN, les chercheurs ont utilisé CGMD pour vérifier les propriétés d’auto-assemblage de cinq peptides. Les résultats du calcul du CGMD sont fondamentalement cohérents avec les résultats de prédiction du modèle TRN.

Dans le même temps, les propriétés d'auto-assemblage de NRMMR, DMGID, NRMMRDMGID et NRMMR + DMGID ont également été vérifiées expérimentalement.Les résultats de la microscopie électronique à transmission (MET) sont fondamentalement cohérents avec ceux de la CGMD.

Figure 12 : Résultats d'auto-assemblage des peptides observés par CGMD (a) et TEM (b)

Les résultats ci-dessus montrent queLe modèle TRN peut prédire avec précision les propriétés d'auto-assemblage des pentapeptides, des décapeptides et des pentapeptides mixtes, fournissant un nouvel outil puissant pour l'étude des peptides auto-assemblés.

Peptides auto-assemblés : une nouvelle direction en biomédecine

Bien que les caractéristiques d’auto-assemblage des peptides n’aient pas été étudiées en profondeur,Cependant, les peptides auto-assemblés ont été largement utilisés dans l’ingénierie tissulaire, l’administration de médicaments et la biodétection.. De plus, la contraction et la relaxation des cellules, le mouvement des vésicules endocytiques et la transmission transmembranaire des bactéries et des virus sont tous indissociables de l’auto-assemblage des polypeptides. Des maladies telles que la maladie d’Alzheimer, la maladie de Parkinson et le diabète de type II sont également liées au mauvais repliement des protéines.

Figure 13 : Peptides auto-assemblés pour l'administration de médicaments antitumoraux

Avec le développement de l’IA, la capacité des chercheurs à traiter de grandes quantités de données continue d’augmenter. À mesure que la recherche biologique a évolué de la recherche expérimentale traditionnelle à la recherche informatique, puis à la recherche sur l’IA, l’échelle de la recherche a également progressivement augmenté, passant de dizaines ou de centaines de possibilités à des dizaines de milliards.Grâce à l’IA, les humains repoussent les limites de la recherche biologique. Je crois qu’à l’avenir, les gens seront en mesure de mener des recherches plus détaillées et plus complètes sur la biologie, permettant à l’IA + la biologie de bénéficier au grand public.

Liens de référence :

https://pubs.rsc.org/en/content/articlelanding/2014/CS/C4CS00161C