Ohne Experimentelle Daten Zur Steuerung Der Proteingesteuerten Evolution Veröffentlichte Die Forschungsgruppe Der Shanghai Jiaotong University Das Mikroumgebungsbewusste Graph-Neuralnetzwerk ProtLGN

Das Protein-Engineering spielt in der modernen Biotechnologie und medizinischen Forschung eine entscheidende Rolle. Durch die Modifizierung der Aminosäuresequenz eines Proteins kann das Protein-Engineering die biochemischen Eigenschaften des Proteins verbessern oder ihm neue verleihen. So kann beispielsweise die katalytische Effizienz eines Enzyms gesteigert, die Affinität eines Arzneimittels erhöht oder seine thermische Stabilität verbessert werden. Diese Verbesserungen sind von entscheidender Bedeutung für die Entwicklung neuer Medikamente, die Behandlung von Krankheiten und die Steigerung der Effizienz der Bioproduktion.
Beim Protein-Engineering müssen aus Zehntausenden von Mutantenkandidaten die besten Mutanten herausgefiltert werden. Günstige Mutationen beziehen sich auf genetische Variationen, die eine oder mehrere biochemische Eigenschaften des Proteins verbessern, die Stabilität, Affinität, Selektivität oder katalytische Effizienz des Proteins steigern und es für bestimmte Anwendungen geeigneter machen können. Jedoch,Der experimentelle Nachweis hochadaptiver Mutanten ist kosten- und zeitaufwendig. Darüber hinaus ist die Kombination mehrerer vorteilhafter Mutationen häufig von negativen epigenetischen Effekten betroffen.Diese Faktoren erhöhen in unterschiedlichem Maße die Komplexität eines effizienten Proteindesigns, was dazu führt, dass die Funktion des Proteins durch Mutationen eingeschränkt wird.
In den letzten Jahren wurden auf Deep Learning basierende Vorhersage- und Screening-Methoden verifiziert und in praktischen Anwendungen eingesetzt: Durch die Analyse großer Datenmengen und das Erlernen der Beziehung zwischen Proteinsequenz, -struktur und -funktion können die Genauigkeit und Effizienz des Proteindesigns verbessert werden. Die meisten Methoden basieren jedoch auf der Mehrfachsequenzalignmentierung (MSA) oder dem Proteinsprachenmodell (PLM), um Merkmale aus Proteinsequenzen zu extrahieren, die viele Einschränkungen aufweisen.Beispielsweise hängt es von der Qualität der multiplen Sequenzalignment ab und ist durch Homologieinformationen eingeschränkt. oder es erfordert große Datenmengen und komplexe Modelle und ist mit hohen Schulungskosten verbunden. Darüber hinaus stellt die direkte Anwendung vorab trainierter Modelle auf neue Aufgaben eine große Herausforderung für die Generalisierungs- und Ausdrucksfähigkeiten des Modells dar.
zu diesem Zweck,Hong Liangs Forschungsgruppe an der Shanghai Jiao Tong University entwickelte eine neueVERROTTENLGNs mikroumgebungsbewusstes Graph-Neuralnetzwerk,Es kann vorteilhafte Aminosäuremutationsstellen aus Protein-3D-Strukturen lernen und vorhersagen, das Design von Einzelstellenmutationen und Mehrfachstellenmutationen mit unterschiedlichen Funktionen leiten und einen P von mehr als 40% erreichen.VERROTTENVon LGN entwickelte Einzelpunktmutantenproteine übertreffen ihre Wildtyp-Gegenstücke. Die Ergebnisse wurden im JCM veröffentlicht.

Papieradresse:
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036
Folgen Sie dem offiziellen Konto und antworten Sie mit „Proteindesign“, um das vollständige PDF zu erhalten
PVERROTTENLGN: Aufbau eines leichten Graph Neural Denoising Network
PVERROTTENLGN-Framework: Protein-Lernnetzwerk basierend auf Graph-Neural-Network
PVERROTTENLGN ist ein Proteinrepräsentations-Lernmodell, das auf einem Graph-Neural-Network basiert. Die Kernarchitektur ist wie folgt:

PVERROTTENLGN-Architektur
* kNN-Graph (k-Nearest-Neighbors-Graph):
Die Aminosäurereste des Eingabeproteins werden als Knoten im Diagramm verwendet, und der räumliche Abstand zwischen der Kantenbasis und den Aminosäureresten wird durch den k-Nearest-Neighbor-Algorithmus bestimmt, wodurch die topologische Struktur des Proteins erstellt und eine Grundlage für die nachfolgende Verarbeitung des Diagramms durch neuronale Netzwerke bereitgestellt wird.
* Äquivariantes GNN (Äquivariantes Graph-Neurales Netzwerk):
Im dreidimensionalen Raum kann die Struktur eines Proteins gedreht oder gespiegelt sein. Als Kernnetzwerkschicht ist das äquivariante GNN darauf ausgelegt, diese Rotationsinvarianzstruktur zu erkennen und beizubehalten, d. h., unabhängig davon, wie der Proteingraph gedreht wird, sollte die Ausgabe des Netzwerks für dieselbe Proteinstruktur konsistent sein.
* Knoteneinbettung:
In einer grafischen Darstellung eines Proteins wird jeder Aminosäurerest als Knoten im Diagramm dargestellt, sodass Modelle des maschinellen Lernens die komplexen Beziehungen zwischen Knoten erfassen und verstehen können.
* Ausgabeebene und Partitur (Ausleseebene & Partitur):
Die von äquivarianten GNN erlernten Knotendarstellungen werden verwendet, um vorteilhafte Mutationsstellen zu identifizieren und die potenziellen Auswirkungen von Mutationen auf die Proteinfunktion oder -struktur vorherzusagen. Gleichzeitig werden als letzte Ebene des Modells die Vorhersageergebnisse in quantitative Werte umgewandelt.
* Validierung:
Experimentelle biologische Methoden wie der Enzyme-linked Immunosorbent Assay (ELISA) und die Differential Scanning Fluorescence Thermal Stability Analysis (DSF) wurden verwendet, um die vom Modell vorhergesagten Mutanten experimentell zu verifizieren und ihre biologischen Funktionen zu testen.
PVERROTTENLGN-Trainingsprozess: Training-Vorhersage-Feinabstimmung
PVERROTTENDer Trainingsprozess von LGN ist in der folgenden Abbildung dargestellt und umfasst Training, Vorhersage und Feinabstimmung des Modells:

PVERROTTENLGN-Vortrainings- und Vorhersageprozess
* Selbstüberwachtes Vortraining:
PVERROTTENLGN wird zunächst selbstüberwacht anhand von Wildtyp-Proteinen für die Aufgabe der AA-Typ-Rauschunterdrückung vortrainiert.
Die im Eingabediagramm enthaltenen dreidimensionalen Koordinateninformationen sind Teil der Knotenattribute und werden verwendet, um die Positionen von Aminosäureresten im dreidimensionalen Raum des Proteins genauer darzustellen.
Die dreidimensionalen Koordinateninformationen und die physikalischen und biochemischen Eigenschaften von Aminosäuren (wie Aminosäuretyp, SASA, B-Faktor usw.) bilden zusammen die Eigenschaften der Knoten und Kanten des Eingabegraphen. Diese Eigenschaften werden zum Erstellen des KNN-Graphen verwendet, in dem jeder Knoten (Aminosäurerest) entsprechend seiner räumlichen Entfernung zu anderen Knoten miteinander verbunden ist.

PVERROTTENSelbstüberwachter Lernprozess von LGN
* Äquivariante Graphenfaltungsschicht (EGC):
Äquivariante Graph-Neuralnetze (EGC-Schichten) werden im Vortraining verwendet, um den Eingabeproteingraphen zu verarbeiten. Durch diese Schicht kann das Modell Knoteneinbettungen erlernen, die bei Rotations- und Translationstransformationen unverändert bleiben und so bei der Verarbeitung der Strukturen verschiedener Proteine helfen.
Die EGC-Schicht ist der Kern des Graph-Neuralnetzwerks, das Graphstrukturdaten verarbeiten und die Empfindlichkeit gegenüber Änderungen der räumlichen Struktur von Proteinen aufrechterhalten kann, was für das Verständnis der dreidimensionalen Struktur von Proteinen von entscheidender Bedeutung ist.
Im selbstüberwachten Lernprozess erhält die EGC-Schicht einen verrauschten Wildtyp-Proteingraphen als Eingabe und gibt eingebettete Darstellungen der Knoten aus, die die räumlichen Beziehungen zwischen Aminosäureresten berücksichtigen.
* Laute Eingabeattribute:
Während des Trainings wird Rauschen in die Eingabeeigenschaften des Wildtyp-Proteins eingefügt, um zufällige Mutationen in der Natur zu simulieren.
* Nullschussvorhersage:
Die blauen Pfeile zeigen an, dass das Modell bei der Berücksichtigung von Proteinmutationen das in der Vortrainingsphase erworbene Wissen nutzt, um die wahrscheinlichen Auswirkungen der Mutation auf die Proteinfunktion vorherzusagen.
* Nassbiochemische Untersuchungen:
Durch die Kombination von Mutantenvorhersagen mit der Auswertung nasser Experimente können vorab trainierte Modelle aktualisiert werden, um sie besser an bestimmte Proteine und Funktionen anzupassen.
* Feinabstimmung:
Wie im grünen Pfeilteil des Diagramms gezeigt, kann das vortrainierte Modell in Kombination mit der Auswertung von Nassexperimenten entsprechend bestimmter Proteine und Funktionen aktualisiert und optimiert werden, um die Genauigkeit und Anpassungsfähigkeit der Vorhersage zu verbessern.
Um biologische Vorinformationen noch besser zu nutzen und so die Generalisierbarkeit und Aussagekraft des Modells zu verbessern, ergriffen die Forscher drei weitere Maßnahmen: * Rauschen des eingegebenen Aminosäuretyps, um zufällige Mutationen in der Natur zu simulieren; * Im Bewertungsmechanismus der Verlustfunktion zur Vorhersage von Aminosäureknoten wurde eine Etikettenglättung eingeführt, um Substitutionen zwischen ähnlichen Aminosäuren zu fördern.
* Nutzen Sie eine Multitasking-Lernstrategie, um dem vortrainierten Modell das Erlernen mehrerer Vorhersageziele zu ermöglichen und so ein Lernmodell für die Graphdarstellung „ein Wort, mehrere Verwendungsmöglichkeiten“ zu trainieren.
Das Potenzial der proteingesteuerten Evolution erkunden: PVERROTTENLGN bietet wirksame Strategien
Um P zu überprüfenVERROTTENUm die Genauigkeit von LGN bei der Vorhersage der Aktivität von Proteinmutanten zu überprüfen, wurden in dieser Studie umfangreiche Validierungsarbeiten an verschiedenen biologischen Funktionen mehrerer Proteine durchgeführt, um sicherzustellen, dass PVERROTTENDie Universalität der LGNs, zu denen VHH-Antikörper, verschiedene fluoreszierende Proteine (wie grüne, blaue und orange fluoreszierende Proteine) und Endonukleasen (KmAgo) gehören, deckt gängige Ziele funktioneller Modifikationen im Protein-Engineering ab, wie etwa thermische Stabilität, Bindungsaffinität, Fluoreszenzhelligkeit und Spaltungsaktivität für einzelsträngige DNA.
Experimentelle Daten zeigen, dass selbst in Abwesenheit experimenteller Daten oder in Abwesenheit experimenteller Daten zu ähnlichen Proteinen PVERROTTENLGN kann immer noch die Erfolgsvorhersagerate für Einzelpunktmutationen von 40% erreichen und in einigen Fällen mehrere biologische Funktionen gleichzeitig verbessern.
PVERROTTENLGN und fluoreszierende Proteine: Vorhersagemodell der Migrationsfähigkeit
Die Forscher verwendeten PVERROTTENDas LGN-Modell wurde für das grün fluoreszierende Protein (GFP) feinabgestimmt, um eine Bewertungsfunktion zu entwickeln, die speziell für die Fluoreszenzintensität optimiert ist. 1.000 markierte GFP-Mutanten wurden zufällig aus der Deep Mutation Scanning (DMS)-Datenbank für das Feintuning-Training ausgewählt, wodurch die Genauigkeit des Modells bei der Vorhersage von Fluoreszenzintensitätsschwankungen verbessert wurde.

Experimentelle Ergebnisse zu fluoreszierendem Protein
* Die Proteinstruktur ist links dargestellt, wobei die roten Kugeln die mutierten Aminosäurereste hervorheben
* Rechts sind Daten zur Fluoreszenzintensität dargestellt, die verschiedene Mutanten mit WT vergleichen
Abbildung a bewertet die Nützlichkeit einer funktionsspezifischen Fitness-Bewertungsfunktion, die aus einer kleinen Anzahl markierter Varianten des grün fluoreszierenden Proteins (GFP) erlernt wurde. Unter den 10 MutantenFünf von ihnen zeigten eine höhere Fluoreszenzintensität als der Wildtyp (WT), und der Mutant mit der besten Leistung hatte eine Fluoreszenzintensität, die doppelt so hoch war wie die des WT.
Darüber hinaus wurde im Experiment die Leistung derselben Bewertungsfunktion für orange fluoreszierendes Protein (orangeFP) untersucht, das aus einer anderen Proteinfamilie stammt, eine andere aktive Region hat und eine Sequenzhomologie von ungefähr 21% zu GFP aufweist. Die Forscher verwendeten ein fein abgestimmtes PVERROTTENLGN bewertete Einzelpunktmutanten von orangeFP und wählte die zehn besten Varianten für die Expression und Prüfung im Nasstest aus. Unter diesen MutantenSieben davon zeigten eine höhere Fluoreszenzintensität als WT, und dieses Ergebnis unterstreicht die starke Migrationsfähigkeit des Modells.
PVERROTTENLGN- und VHH-Antikörper: Nullproben PVERROTTENLeistung von LGN
Die Experimentatoren verwendeten PVERROTTENDa keine experimentellen Daten vorlagen, wurde das LGN-Modell anhand von etwa 30.000 unmarkierten Proteinstrukturen vortrainiert und die 10 besten Mutanten unter den VHH-Antikörpervarianten mit der höchsten Fitnessvorhersage für die nasse experimentelle Auswertung ausgewählt.

PVERROTTENErgebnisse der von LGN entwickelten VHH-Antikörper
(a) Links ist die Struktur des VHH-Antikörpers dargestellt, rechts die Bindungsaffinität des VHH-Antikörpers und seiner Einzelpunktmutanten.
(b): Die linke Seite zeigt die Struktur des VHH-Antikörpers, bei dem Mutationen an verschiedenen Stellen auftreten, und die rechte Seite zeigt die Schmelzpunkttemperatur des VHH-Antikörpers und seiner Einzelpunktmutanten
Drei Mutanten zeigten sowohl hinsichtlich der Bindungsaffinität als auch der thermischen Stabilität eine hervorragende Leistung.Dies bestätigt, dass PVERROTTENDie Wirksamkeit von LGN bei der Steuerung des Designs von VHH-Antikörpermutationen, insbesondere bei der Verbesserung der Antikörperleistung. PVERROTTENDie selbstüberwachte Lernstrategie von LGN stellt ein leistungsstarkes Werkzeug für das Protein-Engineering dar und ermöglicht eine genaue Mutationsvorhersage auch ohne experimentelle Daten.
PVERROTTENLGN- und Ago-Proteine: Die optimale Kombination aus Einzelpunktmutationen finden
Die Forscher verwendeten PVERROTTENLGN führte eine kombinierte Bewertung von 12 bekannten Einzelpunktmutationen durch und filterte die fünf besten Kandidaten für Mutationen höherer Ordnung an 2–7 Stellen heraus (insgesamt 30 Mutanten), um durch die Auswertung von Nassexperimenten Ago-Proteinvarianten mit besserer Leistung zu finden.

PVERROTTENVon LGN entwickelte KmAgo-Mutanten und experimentelle Ergebnisse
* Oben links: Struktur des KmAgo-Proteins
* Oben rechts: Optimale Aktivitäten von KmAgo-Mutanten mit unterschiedlicher Anzahl von Mutationsstellen. Dies könnte ein Hinweis darauf sein, wie sich die Aktivität ändert, wenn weitere Mutationsstellen hinzugefügt werden
* Mitte und unten: Spaltungsaktivität von KmAgo und seinen Mutanten mit mehreren Mutationsstellen
Die experimentellen Ergebnisse zeigen:
* Aktivitätssteigerung:Im Vergleich zum Wildtyp (WT) zeigten die Mutanten von 90% eine erhöhte DNA-Spaltungsaktivität.
* Bester Mutant:Der beste Mutant war ein 7-Stellen-Mutant mit einer 8-fach höheren Aktivität als WT.* Vorteile von Mutanten höherer Ordnung:Mutanten höherer Ordnung neigen dazu, eine höhere Aktivität zu zeigen als Mutanten niedriger Ordnung, sowohl im Hinblick auf die maximale Aktivitätsverbesserung als auch auf die durchschnittliche Verbesserung.
PVERROTTENDas LGN-Modell konnte erfolgreich Mutanten mit hohem Funktionsgewinn und positive epistatische Effekte bei der Kombination einzelner Mutationsstellen identifizieren. Dies bestätigt, dass PVERROTTENDie Wirksamkeit von LGN bei der Gestaltung von Ago-Proteinmutationen, insbesondere bei der Verbesserung der Antikörperleistung.
PVERROTTENVergleich von LGN mit anderen selbstüberwachten Modellen: effizienter und genauer
In der neuesten Studie verwendeten Wissenschaftler PVERROTTENDas LGN-Modell sagt die Proteinfitness im Deep Mutation Scanning (DMS)-Datensatz voraus und wird mit anderen selbstüberwachten Lernmodellen verglichen.

Proteinvorhersageeffekte verschiedener Modelle
a: Inferenzeffizienz und Effektivität von Zero-Shot-Deep-Learning-Modellen
b: Vorhersageleistung von Effekten mehrerer Mutationsstellen
c: Verbesserte Leistung bei der Vorhersage von Mutationen höherer Ordnung
Die experimentellen Ergebnisse zeigen, dass PVERROTTENLGN schneidet von allen verglichenen Modellen am besten ab.Es sagt nicht nur die Fitness von Proteinen genau voraus, sondern verwendet auch die minimale Anzahl trainierbarer Parameter.Dies ist wichtig, da weniger Parameter bedeuten, dass das Modell kostengünstiger trainiert und optimiert werden kann. Zudem bedeutet es, dass das Modell mit weniger gekennzeichneten Daten effektiv lernen kann.
In der letzten Phase des Experiments nutzten die Forscher einige der verfügbaren experimentellen Bezeichnungen, um die Feinabstimmung des Modells zu verbessern und so die Genauigkeit der Vorhersagen weiter zu steigern.Die Ergebnisse zeigen, dass PVERROTTENLGN übertrifft andere Methoden in der Leistung deutlich, insbesondere beim Umgang mit höherwertigen Mutanten.
PVERROTTENLGN-Vorhersage der subzellulären Proteinlokalisierung: umfassende Analyse der dreidimensionalen Proteinstruktur
In einer bahnbrechenden Studie verwendeten Wissenschaftler PVERROTTENDas LGN-Modell wird verwendet, um die subzelluläre Lokalisierung (PSL) von Proteinen vorherzusagen, d. h. die spezifische Position von Proteinen in Zellen, die eng mit der Funktion von Proteinen zusammenhängt.

Modellvorhersage der subzellulären Proteinlokalisierung
Das Forschungsteam verwendete zunächst PVERROTTENDas LGN-Modell analysierte 9.366 markierte Proteine, die jeweils aus ihrer Darstellung auf Aminosäureebene bestanden. Anschließend wurde es anhand von 2.738 Testproteinen ausgewertet, um 10 mögliche Positionen dieser Proteine innerhalb der Zelle vorherzusagen. Die experimentellen Ergebnisse zeigen, dass PVERROTTENIn der Vorhersagegenauigkeit übertrifft LGN bestehende Basismethoden, die auf Aminosäuresequenz- oder Homologieinformationen basieren, erheblich.
Fazit: Die „KI-Revolution“ in der Biomedizin kennt keine Grenzen
Beginnend mit AlphaFold hat die künstliche Intelligenz die kognitiven Grenzen der Biomedizintechnik kontinuierlich erweitert, doch Deep Learning ist immer noch durch qualitativ hochwertige Daten eingeschränkt. Für diese Einschränkung gilt PVERROTTENDas Zero-Shot-Learning-Training von LGN könnte die Antwort liefern. Da wir in das Zeitalter der AGI ohne Daten eintreten, wird die nächste Generation von Strukturbiologen wahrscheinlich nicht mehr in erster Linie Experten für experimentelle Methoden sein, sondern eher für die Interpretation, Gestaltung und Durchführung strukturbasierter Experimente verantwortlich sein, um Mechanismen in der Biologie zu beweisen oder zu widerlegen oder um neue Proteinfunktionen und klinische Behandlungen zu entwickeln.