Die Westlake University Nutzt Transformer, Um Die Selbstassemblierungseigenschaften Von Milliarden Von Peptiden Zu Analysieren Und Die Regeln Der Selbstassemblierung Zu Knacken

Polypeptide sind biologisch aktive Substanzen, die über Peptidbindungen aus zwei oder mehreren Aminosäuren aufgebaut sind und durch Faltung und Helixbildung höherstufige Proteinstrukturen bilden können. Peptide sind nicht nur an zahlreichen physiologischen Aktivitäten beteiligt, sondern können sich auch selbst zu Nanopartikeln zusammensetzen und an der biologischen Erkennung, Arzneimittelverabreichung und Gewebezüchtung beteiligt sein.
Allerdings ist die Sequenzzusammensetzung der Peptide zu vielfältig. Aus nur 10 Aminosäuren können mehr als 10 Milliarden Peptide gebildet werden. Daher ist es schwierig, eine umfassende und systematische Studie seiner Selbstassemblierungseigenschaften durchzuführen und das Design selbstassemblierender Peptide zu optimieren.
Zu diesem Zweck verwendete die Forschungsgruppe von Li Wenbin an der Westlake University ein auf Transformer basierendes Regressionsnetzwerk, um die Selbstassemblierungseigenschaften von zig Milliarden Peptiden vorherzusagen, und analysierte die Auswirkungen von Aminosäuren an verschiedenen Positionen auf die Selbstassemblierungseigenschaften, wodurch ein leistungsstarkes neues Werkzeug für die Untersuchung selbstassemblierender Peptide bereitgestellt wurde.
Autor | Xuecai
Herausgeber | Sanyang
Peptide sind biologisch aktive Substanzen, die durch Peptidbindungen aus zwei oder mehr Aminosäuren bestehen.Peptide sind leicht zu synthetisieren, biologisch abbaubar, biokompatibel und weisen eine große chemische Vielfalt auf, können Nanomaterialien mit Fluoreszenz, Halbleiterleitfähigkeit oder Magnetismus bilden. Aus diesem Grund haben Peptide in der wissenschaftlichen Forschungsgemeinschaft große Aufmerksamkeit erhalten.
Doch gerade wegen der Vielfalt der PeptideDerzeit fehlen Methoden zur Vorhersage der Selbstassemblierungstendenz (AP, Aggregation Propensity)., ist es schwierig, es in eine geordnete Struktur umzuwandeln. Derzeit ist nur eine sehr kleine Anzahl von Peptiden in der Lage, sich selbst zu supramolekularen Strukturen zusammenzufügen, die den Anforderungen genügen und für industrielle Anwendungen geeignet sind.

Abbildung 1: Spezifische Fluoreszenz verschiedener selbstassemblierter Sonden für hCA, Avidin und Trypsin
In den letzten Jahrzehnten wurden selbstassemblierende Peptide hauptsächlich durch biologische Experimente entdeckt.. Allerdings sind Experimente oft zeitaufwändig und weisen gewisse Verzerrungen auf, was einer umfassenden und systematischen Erforschung einer großen Anzahl von Peptiden nicht förderlich ist.
In den letzten Jahren wurde das computergestützte Screening häufig bei der Entwicklung selbstassemblierender Peptide eingesetzt.. Im Jahr 2015 haben Frederix et al. verwendete grobkörnige Molekulardynamik (CGMD), um die AP von Tripeptiden zu analysieren. Mit zunehmender Anzahl der Aminosäuren steigt jedoch auch die Anzahl der Peptidsequenzen exponentiell an, was die Kosten der CGMD erheblich erhöht.
Daher haben einige Forscher KI und CGMD kombiniert, um die Analysekosten herkömmlicher Methoden zu senken. Allerdings erfordert AI-CGMD eine große Menge an Trainingsdaten. Schätzungsweise gibt es mehr als 10 Milliarden Dekapeptidsequenzen, für die 3,2 Millionen Peptidsequenzdaten erforderlich sind. Aus den oben genannten Gründen gibt es derzeit keine AP-Vorhersage für Peptide (Pentapeptide), die aus mehr als 5 Aminosäuren bestehen.
Um diese Probleme zu lösen,Die Forschungsgruppe von Li Wenbin an der Westlake University verwendete ein Transformer-basiertes Regressionsnetzwerk (TRN) in Kombination mit CGMD, um die Selbstassemblierungseigenschaften von zig Milliarden Peptiden vorherzusagen., das AP von Pentapeptiden und Dekapeptiden wurde ermittelt und der Einfluss von Aminosäuren an verschiedenen Positionen auf das AP von Peptiden wurde ermittelt. Dieses Ergebnis wurde in „Advanced Science“ veröffentlicht.

Ähnliche Ergebnisse wurden in „Advanced Science“ veröffentlicht.
Link zum Artikel:
https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202301544
Experimentelle Verfahren
Trainingssatz: Latin Hypercube Sampling
Zunächst wurden 8.000 Peptidsequenzen mittels Latin-Hypercube-Sampling gescreent. Der AP der gescreenten Peptidsequenzen wurde durch CGMD-Modellanalyse erhalten.
Modellbildung: Kodierung und Dekodierung
Die Forscher erstellten ein AP-Vorhersagemodell auf Basis von TRN.Das Modell besteht aus einem Transformer-Encoder und einem Multi-Layer-Perceptron-Decoder (MLP).. Der Transformer-Encoder besteht aus einer Eingabeeinbettungsschicht, einem Positionsencoder und einem Codierungsblock.
Die Eingabe-Einbettungsschicht wird verwendet, um die Bestandteile des Peptids (d. h. Aminosäuren) in einen 512-dimensionalen kontinuierlichen Raum abzubilden, und der Positionscodierer gibt die Positionsinformationen der Aminosäuren aus. Der Codierungsblock umfasst ein Self-Attention-Netzwerk und ein Feedforward-Neuralnetzwerk.
Der Transformer-Encoder gibt schließlich eine Peptidsequenz aus, die durch eine versteckte Schicht dargestellt wird. Diese Sequenz wird nach fünfmaliger MLP-Dimensionsreduzierung in einen eindimensionalen Vektor komprimiert. Die letzte Schicht des MLP-Decoders gibt den AP des Peptids aus.

Abbildung 2: Workflow des TRN-Modells
a: Atommodelle der α-Helix und des β-Faltblatts und CG-Modell der α-Helix;
b: Der Prozess der Ausgabe von Trainingsdaten durch CGMD;
c: Schematische Darstellung des TRN-Modells.
Experimentelle Ergebnisse
Modellvorhersage: Verbessert um 54,5%
Die Forscher verglichen die AP-Vorhersageleistung des TRN-Modells mit anderen Nicht-Deep-Learning-Modellen (Support Vector Machine SVM, Random Forest RF, Proximity-Algorithmus NN, Bayesianische Regression BR und lineare Regression LR).
Mit nur 8.000 Trainingsdaten überschritt der Bestimmtheitskoeffizient R2 des Modells 0,85, was 11,8% höher war als bei SVM und 54,5% höher als bei RF. .

Abbildung 3: Leistungsvergleich des TRN-Modells und anderer Nicht-Deep-Learning-Modelle
Mit zunehmender Menge der Trainingsdaten verbessert sich die Leistung des TRN-Modells. Wenn die Anzahl der Trainingsdaten 54.000 erreicht, beträgt der mittlere absolute Fehler (MAE) des TRN-Modells 0,05 und R2 0,92.

Abbildung 4: Einfluss der Trainingsdaten auf die Leistung des TRN-Modells
Die obigen Ergebnisse zeigen, dass im Vergleich zu Nicht-Deep-Learning-Modellen,Das TRN-Modell kann mit weniger Trainingsdaten höhere Vorhersageraten erzielen.. Gleichzeitig verbessert sich die Leistung des TRN-Modells mit zunehmender Menge an Trainingsdaten.
Hydrophilie: APHC Revision
Es wird berichtet, dass zusätzlich zu AP,Die Hydrophilie (log P) des Peptids beeinflusst auch die Selbstassemblierung des Peptids.
Wenn AP von niedrig auf hoch ansteigt, sinkt der Median von log P, was darauf hinweist, dass hydrophile Peptide eine schlechte Aggregationsfähigkeit haben. Allerdings weist der AP von Peptiden mit log P zwischen 0,25 und 0,75 eine große Spanne auf, die zwischen 0 und 1 verteilt ist. Dies weist darauf hin, dass die Beziehung zwischen den beiden nicht eng ist und dass es andere Faktoren gibt, die den AP von Peptiden beeinflussen.

Abbildung 5: Beziehung zwischen AP und log P
a: Korrelation zwischen AP und log P von 3,2 Millionen Pentapeptiden;
b: Verteilung von AP in verschiedenen Intervallen;
c: Verteilung von log P in verschiedenen AP-Intervallen.
Um die Auswirkungen von AP und log P auf die Selbstassemblierung von Peptiden herauszufinden, verwendeten die Forscher log P zur Korrektur von AP und erhielten APHC . Korrigierter APHC Es ist möglich, zwischen der Selbstassemblierung und Ausfällung von Peptiden zu unterscheiden und Peptide herauszufiltern, die Hydrogele bilden können.

Abbildung 6: APHC Beziehung zu log P
a: AP von 3,2 Millionen PentapeptidenHC Korrelation mit log P;
b: APHC Verteilung in verschiedenen Intervallen;
c: log P an verschiedenen APsHC Die Verteilung der Intervalle.
Selbstassemblierungsregeln: Der Einfluss von Aminosäuren an verschiedenen Positionen
Die Auswirkungen von 20 Aminosäuren an verschiedenen Positionen im Pentapeptid auf APHC Nachdem die Forscher den Einfluss verschiedener Aminosäuren und ihrer Verteilung auf die Selbstassemblierungseigenschaften von Polypeptiden untersucht hatten, fassten sie die Auswirkungen verschiedener Aminosäuren und ihrer Verteilung auf die Selbstassemblierungseigenschaften von Polypeptiden zusammen und teilten sie in 5 Gruppen ein.
Zur ersten Gruppe der Aminosäuren gehören Phenylalanin (F), Tyrosin (Y) und Tryptophan (W). Diese Gruppe von Aminosäuren weist eine π-π-Stapelung und eine starke Hydrophobie auf, die am meisten zur Selbstassemblierung von Peptiden beiträgt.. Unter diesen weist W die stärkste Hydrophobie auf und ist gegenüber AP am hydrophobsten.HC Der Einfluss von ist am größten, was mit den Beobachtungen von WWWWW übereinstimmt.

Abbildung 7: Verteilungsverhältnis von 20 Aminosäuren an verschiedenen Positionen in verschiedenen AP-Intervallen
Wenn sich F, Y und W an den Positionen 3–5, insbesondere an Position 3, befinden, tragen sie am stärksten zur Selbstassemblierung des Polypeptids bei. Dies kann daran liegen, dass die Aminosäure an Position 3 einen höheren Freiheitsgrad aufweist, wodurch die Selbstassemblierung des Polypeptids durch π-π-Wechselwirkung einfacher wird.

Abbildung 8: π-π-Stapeldiagramm
Diese aromatischen Aminosäuren sind jedoch starke Protonenakzeptoren an der 5. Position und interagieren mit anderen Polypeptiden, vergrößern den Abstand zwischen den Benzolringen und schwächen die π-π-Wechselwirkung innerhalb des Moleküls.
Zur zweiten Gruppe der Aminosäuren zählen Isoleucin (I), Leucin (L), Valin (V) und Cystein (C). .Da die Seitenketten dieser Aminosäuren Wasser voneinander ausschließen, sind sie stark hydrophob und tragen stark zur Selbstassemblierung von Peptiden bei.. Diese Gruppe von Aminosäuren ist häufig an beiden Enden des Polypeptids verteilt, insbesondere am N-Terminus des selbstassemblierenden Polypeptids.

Abbildung 9: Hydrophobe Wechselwirkungen von Aminosäuren
Zur dritten Gruppe der Aminosäuren zählen Histidin (H), Serin (S) und Threonin (T). Diese Gruppe von Aminosäuren hat polarisierte Seitenketten, die die Selbstassemblierungsfähigkeit von Peptiden durch Wasserstoffbrücken verbessern können.. Allerdings ist die Wasserstoffbindung schwächer als die π-π-Stapelung, sodass bei hohem APHC Im Polypeptid ist der Gehalt der dritten Aminosäuregruppe relativ gering.
T und S neigen dazu, beide Enden des Polypeptids zu besetzen, insbesondere das N-Terminus, was der Bildung von Wasserstoffbrücken förderlich ist. Und H bleibt von beiden Enden des Polypeptids fern.

Abbildung 10: Einfluss polarer Seitenketten auf die Peptidstruktur
Zur vierten Gruppe der Aminosäuren gehören Methionin (M) und Prolin (P). . M und P in verschiedenen APHC Die Verteilung der Peptide ist grundsätzlich gleich und hat nur einen geringen Einfluss auf spezifische Indikatoren der Peptide.
Die fünfte Gruppe von Aminosäuren ist nicht förderlich für die Selbstassemblierung von Peptiden, darunter negativ geladene Asparaginsäure (D) und Glutaminsäure (E), positiv geladenes Lysin (K) und Arginin (R), hochpolares Asparagin (N) und Glutamin (Q) sowie seitenkettenfreies Alanin (A) und Glycin (G).
Allerdings können D und E am C-Terminus sowie R und K am N-Terminus eine doppelt geladene Kopfgruppe bilden, die die Selbstassemblierung des Polypeptids fördert, indem sie sich aufgrund entgegengesetzter Ladungen gegenseitig anziehen und Salzbrücken bilden. N und Q sind zu polar und fördern die Auflösung des Peptids. Allerdings fehlt zwischen A und G eine offensichtliche Wechselwirkung, was der Selbstassemblierung von Polypeptiden nicht förderlich ist.

Abbildung 11: Einfluss der Coulomb-Wechselwirkung auf die Peptidstruktur
Experimentelle Überprüfung: grundsätzlich konsistent mit CGMD- und TEM-Ergebnissen
Um die Vorhersagen des TRN-Modells zu bestätigen, verwendeten die Forscher CGMD, um die Selbstassemblierungseigenschaften von fünf Peptiden zu überprüfen. Die Berechnungsergebnisse von CGMD stimmen grundsätzlich mit den Vorhersageergebnissen des TRN-Modells überein.
Gleichzeitig wurden die Selbstorganisationseigenschaften von NRMMR, DMGID, NRMMRDMGID und NRMMR + DMGID auch experimentell überprüft.Die Ergebnisse der Transmissionselektronenmikroskopie (TEM) stimmen grundsätzlich mit denen der CGMD überein.

Abbildung 12: Ergebnisse der Peptid-Selbstassemblierung, beobachtet durch CGMD (a) und TEM (b).
Die obigen Ergebnisse zeigen, dassDas TRN-Modell kann die Selbstassemblierungseigenschaften von Pentapeptiden, Dekapeptiden und gemischten Pentapeptiden genau vorhersagen und bietet ein leistungsfähiges neues Werkzeug für die Untersuchung selbstassemblierender Peptide.
Selbstassemblierende Peptide: eine neue Richtung in der Biomedizin
Obwohl die Selbstassemblierungseigenschaften von Peptiden noch nicht eingehend untersucht wurden,Selbstassemblierende Peptide werden jedoch häufig in der Gewebezüchtung, Arzneimittelverabreichung und Biosensorik eingesetzt.. Darüber hinaus sind Zellkontraktion und -relaxation, die Bewegung endozytischer Vesikel und die transmembranäre Übertragung von Bakterien und Viren untrennbar mit der Selbstassemblierung von Polypeptiden verbunden. Auch Krankheiten wie Alzheimer, Parkinson und Typ-II-Diabetes stehen mit einer Fehlfaltung von Proteinen im Zusammenhang.

Abbildung 13: Selbstassemblierende Peptide für die Verabreichung von Antitumor-Medikamenten
Mit der Entwicklung der KI verbessern sich die Fähigkeiten der Forscher, große Datenmengen zu verarbeiten, weiter. Im Zuge der Entwicklung der biologischen Forschung von der traditionellen experimentellen Forschung zur computergestützten Forschung und schließlich zur KI-Forschung hat sich auch der Umfang der Forschung schrittweise von Dutzenden oder Hunderten von Möglichkeiten auf mehrere zehn Milliarden erhöht.Mithilfe der KI erweitern Menschen die Grenzen der biologischen Forschung. Ich bin davon überzeugt, dass die Menschen in Zukunft detailliertere und umfassendere Forschungen im Bereich Biologie durchführen können, sodass KI und Biologie der Allgemeinheit zugutekommen.
Referenzlinks:
https://pubs.rsc.org/en/content/articlelanding/2014/CS/C4CS00161C