AlphaFolding Schließt Die Lücke in Der Vorhersage Dynamischer Proteinstrukturen! Die Fudan-Universität Und Andere Schlugen Ein 4D-Diffusionsmodell Vor, Und Die Ergebnisse Wurden Für AAAI 2025 Ausgewählt

Die Funktion eines Proteins hängt maßgeblich von seiner 3D-Struktur ab. Mitte des 19. Jahrhunderts glaubte die wissenschaftliche Gemeinschaft im Allgemeinen, dass die Proteinstruktur fest und starr sei, ähnlich dem „Schlüssel-Schloss-Modell“.Das heißt, die Bindung von Protein und Ligand wird durch eine feste dreidimensionale Struktur bestimmt.Allerdings wurde die traditionelle Denkweise in Frage gestellt, als Daniel Koshland die Idee aufstellte, dass Enzyme Konformationsänderungen durchlaufen, wenn sie an Substrate binden.
In den 1980er Jahren kam die Molekulardynamiksimulation (MD) auf.Zum ersten Mal wurde die Bewegungsbahn von Proteinen aus rechnerischer Sicht aufgedeckt.Seitdem hat die funktionelle Rolle der dynamischen Proteinstruktur zunehmend an Aufmerksamkeit gewonnen. Für Biotechnologieforscher und Wissenschaftler ist das Verständnis der dynamischen Eigenschaften der Proteinbewegung von großer Bedeutung für das Verständnis von Lebensprozessen und die Entwicklung neuer Medikamente.
Beispielsweise sind G-Protein-gekoppelte Rezeptoren (GPCRs) die Hauptziele vieler Medikamente und machen über 301 TP3T der derzeit von der FDA zugelassenen Medikamente aus. GPCRs sind jedoch keine starren Strukturen, sondern hochdynamisch, und unterschiedliche Konformationszustände können die Art der Arzneimittelbindung beeinflussen. Wenn Arzneimittel ausschließlich auf Grundlage statischer Kristallstrukturen entwickelt werden, können wichtige Bindungsstellen übersehen werden, was zu einer unzureichenden Wirkstoffaffinität und -selektivität führt. Die dynamische Strukturvorhersage kann dabei helfen, mehrere Konformationen von GPCRs in physiologischen Umgebungen zu identifizieren.Dadurch wird die Entwicklung niedermolekularer Arzneimittel optimiert und die Erfolgsrate zielgerichteter Therapien verbessert.
In diesem Zusammenhang hat das Team der Professoren Zhu Siyu und Qi Yuan von der Fudan-Universität und dem Shanghai Institute of Science and Intelligence zusammen mit Professor Yao Yao von der Universität NanjingEs wird ein innovatives 4D-Diffusionsmodell namens AlphaFolding vorgeschlagen.Einbeziehung von Daten aus der molekularen Dynamiksimulation zum Erlernen dynamischer Proteinstrukturen. Dies ist die erste auf einem Diffusionsmodell basierende Methode, die Proteintrajektorien über mehrere Zeitschritte gleichzeitig vorhersagen kann.
Validierungsergebnisse anhand von Benchmark-Datensätzen zeigen, dass das neue Modell eine hohe Genauigkeit bei der Vorhersage dynamischer 3D-Strukturen mit bis zu 256 Aminosäuren und über 32 Zeitschritte hinweg aufweist und lokale Flexibilität in stabilen Zuständen sowie signifikante Konformationsänderungen effektiv erfassen kann.
Die zugehörigen Ergebnisse mit dem Titel „4D-Diffusion zur dynamischen Vorhersage der Proteinstruktur mit Referenz und Bewegungsführung“ wurden für die hochkarätige internationale Konferenz AAAI 2025 ausgewählt und der Vorabdruck auf arXiv veröffentlicht.

Papieradresse:
https://arxiv.org/abs/2408.12419
Folgen Sie dem offiziellen Konto und antworten Sie mit „4D Diffusible Proteins“, um das vollständige PDF zu erhalten
Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 200 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:
https://github.com/hyperai/awesome-ai4s
Es besteht immer noch eine Lücke in der Erforschung der Vorhersage dynamischer Proteinstrukturen
Das AlphaFolding-Modell kann als wichtiger Fortschritt in der Strukturbiologieforschung angesehen werden. Die Strukturbiologie ist eine Wissenschaft, die Lebensphänomene auf der Grundlage der Untersuchung der Struktur, Bewegung und Interaktion biologischer Makromoleküle wie Proteinen erklärt. Mittlerweile hat es sich zum Mainstream der Molekularbiologie entwickelt.
In den letzten Jahren haben Fortschritte in der Deep-Learning-Technologie, gepaart mit dem exponentiellen Wachstum experimenteller Proteinstrukturdaten in der Protein Data Bank (PDB), zu einer Reihe wichtiger Durchbrüche auf dem Gebiet der Proteinstrukturvorhersage geführt. Das bekannteste davon ist AlphaFold2.Es nutzt die neuesten Algorithmen der künstlichen Intelligenz, um genaue Vorhersagen von Proteinstrukturen zu erreichen, die nahezu der experimentellen Genauigkeit entsprechen.Die entsprechenden Ergebnisse wurden von Science als einer der zehn größten wissenschaftlichen Durchbrüche des Jahres 2020 eingestuft.
Zufälligerweise baute RoseTTAFold, entwickelt vom Team des Biologen David Baker an der University of Washington, im Juli 2021 ein „dreispuriges“ neuronales Netzwerk.Die dreidimensionale Struktur eines Proteins mit einer bestimmten Sequenz kann innerhalb von zwölf Minuten aufgelöst werden.
Darüber hinaus hat die Verfügbarkeit umfangreicher Datenspeicher die Entwicklung von Studien zur Proteinkonformationsprobenahme erleichtert. Microsoft Research hat beispielsweise ein Deep-Learning-Framework namens Distributional Graphformer (DiG) entwickelt.Ziel ist es, die Verteilung molekularer Strukturen im Gleichgewicht vorherzusagen.Obwohl sich mit herkömmlichen molekulardynamischen Simulationen und verbesserten Sampling-Methoden die Gleichgewichtsverteilung von Molekülen ermitteln lässt, sind diese Methoden rechenintensiv und zeitaufwendig, sodass ihre Anwendung in komplexen praktischen Anwendungsszenarien schwierig ist. DiG hingegen verwendet Deep-Learning-Technologie, um schnell realistische und vielfältige Konformationen zu generieren.
Obwohl bei der Vorhersage der Proteinstruktur und ihrer Konformation große Durchbrüche erzielt wurden, hinkt die Erforschung der dynamischen Struktur noch immer relativ hinterher. Nehmen wir als Beispiel AlphaFold2, das die dreidimensionale Struktur von Proteinen genau vorhersagen kann.Allerdings kann es nur die statische Struktur eines Proteins zu einem bestimmten Zeitpunkt vorhersagen und ist noch nicht in der Lage, dynamische Veränderungen vorherzusagen.
Im Mai 2024 veröffentlichte DeepMind das verbesserte AlphaFold3, das die Struktur und Wechselwirkungen aller biologischen Moleküle mit beispielloser „atomarer Präzision“ vorhersagen kann, einschließlich der 3D-Struktur von Proteinen, Nukleinsäuren und kleineren Molekülen, und aufzeigen kann, wie sie miteinander kombiniert sind.Allerdings ist die Vorhersage dynamischer 3D-Strukturen biologischer Moleküle noch immer mit großen Einschränkungen verbunden.
Daher soll das in dieser Studie neu vorgeschlagene innovative 4D-Diffusionsmodell genau diese Forschungslücke schließen, indem es sich auf die dynamischen Eigenschaften der Proteinstruktur konzentriert und neue Ideen für ein tieferes Verständnis der Proteinfunktion liefert. Die Forscher nutzten die hochwertigen Daten der molekularen Dynamiksimulation (MD) voll aus.Generieren Sie dynamische Proteinstrukturen mit vollständigen Seitenkettendarstellungen für komplexe Proteine, die aus Hunderten von Aminosäuren bestehen.Dadurch wird der Anwendungsbereich von MD-Simulationen erweitert, sodass sie das dynamische Verhalten größerer und komplexerer Proteinsysteme vorhersagen und unser Verständnis der dynamischen Eigenschaften von Proteinen verbessern können.
Zeigt eine hohe Genauigkeit bei der Vorhersage von Proteinbewegungsbahnen über mehrere Zeitschritte
Statische Proteinmodelle sind relativ einfach zu konstruieren, aber wie sollten dynamische Proteinmodelle dargestellt werden? Um dieses Problem zu lösen,Die Forscher verwendeten die rahmenbasierte Proteinstrukturdarstellungsmethode von AlphaFold2 und erweiterten sie auf die Zeitdimension.Den Strukturwandel im Laufe der Zeit beschreiben.
Bei der statischen Proteinmodellierung bestehen Proteine aus einer Reihe von Aminosäureresten, von denen jeder durch ein Rückgratgerüst parametrisiert wird. In dieser Studie definierten die Forscher dynamische Proteine als Systeme, die N Aminosäurereste enthalten und deren Rückgratgerüst sich innerhalb von S Zeitschritten transformiert. Diese Rahmen werden mithilfe spezieller euklidischer Transformationen transformiert, um die Ausrichtung des lokalen Rahmens zum globalen Referenzrahmen beizubehalten.
Alle zusätzlichen Atomkoordinaten in Proteinen sind basierend auf ihrer Abhängigkeit von Diederwinkeln in starren Gruppen organisiert, um die chemische Strukturintegrität sicherzustellen. Innerhalb jeder starren Gruppe bleiben die relativen Positionen und Ausrichtungen aller Atome unverändert. In Kombination mit Transformationsparametern kann das Modell alle Atompositionen aus idealisierten experimentellen Koordinaten in der Zeitdimension rekonstruieren.
Auf dieser Grundlage zeigt die folgende Abbildung die Methode zum Erstellen des gesamten Forschungsmodells: Das Diffusionsmodell verwendet die Referenzstruktur und die entsprechende Restsequenz (Aminosäurerestsequenz) als Eingabe und generiert als Ausgabe eine Reihe von denoisisierten 3D-Proteinstrukturen (denoisisierte 3D-Struktur).

Die Forscher verwendeten 3D Structure Embedder und GeoFormer, um 3D-Proteinstrukturen bzw. Restsequenzen einzubetten. Invariant Point Attention (IPA) aktualisiert Knotenfunktionen durch Einbeziehung expliziter Rahmeninformationen zu Rückständen.
Das Referenznetzwerk- und Bewegungsausrichtungsmodul erfasst dynamische 3D-Proteinsequenzen basierend auf Referenz-3D-Proteinstrukturen. Das gesamte generative Modell ist als scorebasiertes Diffusionsmodell aufgebaut, bei dem die Merkmalseinbettungen von Knoten und Kanten jeweils über die Module EdgeUpdate und BackboneUpdate aktualisiert werden.
Nach der Erstellung des Modells führten die Forscher vergleichende Experimente zum vorgeschlagenen Rahmen mit DFF und Flow-Matching in aktuellen Kurzzeit-zu-Langzeit-Aufgaben (S2L) durch und verwendeten dabei Datensätze wie ATLAS und Fast-Folding Proteins.
Die Ergebnisse sind in der folgenden Tabelle dargestellt: In der S2L-Aufgabe auf dem ATLAS-Datensatz reduziert die vorgeschlagene Methode R32 Der Fehler wurde von 4,60 auf 2,12 reduziert,Die Genauigkeit langfristiger Prognosen wurde deutlich verbessert;In der S2L-Aufgabe auf dem Fast-Folding-Datensatz konvertiert die vorgeschlagene Methode R32 Der Fehler wurde von 5,48 auf 4,39 reduziert,Es zeigt auch eine gute langfristige Vorhersagefähigkeit.Gleichzeitig ist die Leistung des vorgeschlagenen Modells bei der O2O-Aufgabe mit der bei der S2L-Aufgabe vergleichbar.Dies weist auf seine hervorragende Generalisierungsfähigkeit hin.


Darüber hinaus ist die Methode in der Lage, Proteine mit längeren Simulationszeiten zu verarbeiten, die bei jedem Trajektorienschritt größere dynamische Änderungen aufweisen.Die experimentellen Ergebnisse bestätigten die Wirksamkeit dieser Methode bei der Modellierung der Proteinkinetik weiter.
Die Forscher gingen noch einen Schritt weiter und visualisierten auch die dynamischen Proteinverteilungen der ersten beiden vom Modell generierten TICs (Temporal Consistency Components) und verglichen sie mit realen Daten. Wie in der Abbildung unten gezeigt,Das neue Modell sagt das dynamische Verhalten des Proteins effektiv voraus und weist eine hohe Übereinstimmung mit der tatsächlichen Verteilung auf.

* Je dunkler der Punkt, desto höher seine Frequenz. Die blaue Kurve stellt die aus den MD-Daten geschätzte Kerneldichteverteilung dar.
Die folgende Abbildung zeigt den umgekehrten Diffusionsprozess zu einem ausgewählten Zeitpunkt und verdeutlicht, wie die Proteinstruktur während des Rauschunterdrückungsprozesses allmählich konsistenter wird. Wie Sie sehen können,Die vorgeschlagene Methode erfasst effektiv die Dynamik des Proteins und generiert sinnvolle Flugbahnen.

* Die rosa und gelben Bereiche zeigen jeweils eine α-Helix und ein β-Faltblatt an
Dynamische Eigenschaften von Proteinstrukturen erhalten mehr Aufmerksamkeit
Proteine existieren in der zellulären Umgebung nicht statisch, sondern unterliegen komplexen dynamischen Veränderungen. Obwohl mit herkömmlichen Methoden zur Vorhersage statischer Strukturen wichtige Fortschritte bei der Aufklärung der Proteinfaltung und -interaktionen erzielt wurden, können sie das dynamische Verhalten von Proteinen nicht vollständig erfassen. daher,Die dynamische Vorhersage von Proteinstrukturen ist zu einer der größten Herausforderungen in der Strukturbiologie und der Computerbiologie geworden.In den letzten Jahren haben sich immer mehr Forscher dieser Richtung gewidmet.
Im Dezember 2022 arbeitete das Team von Li Ziqing von der West Lake University mit der Xiamen University und Deruizhi Pharmaceuticals zusammen.Wir haben ProtMD entwickelt, ein KI-Modell, das Konformationsänderungen von Proteinen charakterisieren und Affinität vorhersagen kann.Dies ist die erste KI-Methode, die versucht, die dynamische Konformation von Proteinen zu analysieren. Anhand eines Arzneimittelmoleküls und eines Zielproteins sagt ProtMD die Veränderungen der Proteinstruktur voraus, nachdem das Arzneimittelmolekül an das Zielprotein im Körper bindet, leitet daraus die Stabilität der Arzneimittel-Zielprotein-Bindung ab und sagt die Arzneimittelfunktion voraus. Dadurch werden die Genauigkeit und Effizienz des KI-basierten Arzneimitteldesigns verbessert und die präklinische Arzneimittelentwicklung beschleunigt.
Die entsprechenden Forschungsergebnisse wurden in Advanced Science unter dem Titel „Pre-Training of Equivariant Graph Matching Networks with Conformation Flexibility for Drug Binding“ veröffentlicht.
* Papieradresse:
https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202203796
Im August 2024 enthüllte eine neue Studie der University of Connecticut ein fortschrittliches Rechenmodell und ein Werkzeug, dasKann die dynamischen Eigenschaften von Proteinen und ihre Kristallisationstendenz genau vorhersagen,Die entsprechenden Forschungsergebnisse wurden in der materialwissenschaftlichen Fachzeitschrift Matter unter dem Titel „Protein dynamics inform protein structure: An interdisciplinary investigation of protein crystallization propensity“ veröffentlicht. Im Mittelpunkt der Forschung steht die Frage, wie sich die natürlichen Bewegungen und Schwankungen von Proteinen, also ihre Schaukeleigenschaften, auf ihre funktionellen Eigenschaften auswirken, insbesondere auf die Fähigkeit der Proteine, hochwertige Kristalle zu bilden.
Im Oktober 2024 hat die Forschungsgruppe unter der Leitung von Zheng Shuangjia von der Shanghai Jiao Tong University zusammen mit Star Pharma Technology, der Sun Yat-sen University School of Pharmacy und der Rice UniversityEs wird ein geometrisches, tiefes generatives Modell namens DynamicBind vorgeschlagen, das für das dynamische Docking von Proteinen entwickelt wurde.Es kann die Proteinkonformation effektiv vom anfänglichen, durch AlphaFold vorhergesagten Zustand in einen holoähnlichen Zustand anpassen und so ein neues Forschungsparadigma auf der Grundlage von Deep Learning bereitstellen und die dynamischen Veränderungen von Proteinen für die Arzneimittelentwicklung in der Post-AlphaFold-Ära berücksichtigen.
Die entsprechende Forschung wurde in Nature Communications unter dem Titel „DynamicBind: Vorhersage der ligandenspezifischen Protein-Ligand-Komplexstruktur mit einem tiefen äquivarianten generativen Modell“ veröffentlicht.
Zusammenfassend lässt sich sagen, dass die dynamische Vorhersage von Proteinstrukturen uns nicht nur dabei helfen kann, Lebensprozesse zu verstehen, sondern auch eine wichtige Rolle bei der Arzneimittelentwicklung, der Erforschung von Krankheitsmechanismen und der industriellen Biotechnologie spielt. Von der Entwicklung von GPCR-Medikamenten über Protein-Protein-Interaktionen bis hin zur Erforschung der Enzymkatalyse und der Pathologie der Proteinaggregation wird die dynamische Strukturvorhersage weiterhin die bahnbrechende Entwicklung der Biowissenschaften vorantreiben.
Quellen:
1.https://www.forwardpathway.com/119037
2.https://www.westlake.edu.cn/news_events/westlakenews/academics/202212/t20221208_24193.shtml
3.https://www.cell.com/matter/abstract/S2590-2385(24)00196-6
