HyperAI

8-mal Schneller Als Die Beste Technologie: Hou Tingjun Et Al. Von Der Zhejiang-Universität Schlug ResGen Vor, Ein 3D-Molekülgenerationsmodell Basierend Auf Proteintaschen

特色图像

Autor: Binbin

Herausgeber: Li Baozhu, Sanyang

Das Forschungsteam der Zhejiang-Universität und des Zhijiang-Labors schlug ein 3D-Modell zur Molekülgenerierung auf Basis von Proteintaschen vor – ResGen. Im Vergleich zur vorherigen optimalen Technologie ist die Geschwindigkeit um das Achtfache erhöht und es gelang, wirkstoffähnliche Moleküle mit geringerer Bindungsenergie und höherer Diversität zu erzeugen.

In der Vergangenheit beruhte die Entdeckung innovativer Medikamente oft auf alten Formeln oder zufälligen Ereignissen bei Experimenten, wie zum Beispiel bei Penicillin. Im Laufe der Jahre haben Fortschritte in der Molekularbiologie und der Computerchemie einen Paradigmenwechsel bei der Arzneimittelentwicklung vom Blindscreening zum rationalen Design ermöglicht.

Trotzdem bleibt die Arzneimittelforschung und -entwicklung ein mehrstufiger Prozess mit langen Verbindungen und hohen Kosten, und die Verbesserung der Effizienz in jedem Schritt ist von enormem Wert. In den letzten Jahren ist die KI-gestützte Arzneimittelentwicklung durch die weitverbreitete Anwendung von Technologien wie KI und Big Data und wiederholte Experimente immer ausgereifter geworden. Die KI wird derzeit verbessert und reformiert, um die Effizienz und Qualität in vielen Aspekten der Arzneimittelforschung und -entwicklung zu verbessern.

Unter ihnen können qualitativ hochwertige Modelle zur Molekülgenerierung die Effizienz der Entdeckung von Leitsubstanzen wirksam verbessern. Derzeit wird bei den meisten Arbeiten zur Molekülgenerierung die ligandenbasierte Methode (LBMG) verwendet. Diese Methode weist jedoch viele Einschränkungen auf, beispielsweise die Unfähigkeit, das Interaktionsmuster zwischen Molekülen und Zielen zu berücksichtigen. Daher widmen Forscher der strukturbasierten molekulargenerativen Methode (SBMG), also der Generierung entsprechender Moleküle auf Basis der Zielstruktur, immer mehr Aufmerksamkeit.

Professor Hou Tingjun und Professor Xie Changyu von der Zhejiang-UniversitätZhijiang-LaborChen Guangyong und sein Team schlugen ein 3D-Modell zur Molekülgenerierung auf der Grundlage von Proteintaschen vor – ResGen.Das Modell verwendet eine parallele Multiskalen-Modellierungsstrategie, die Interaktionen auf höherer Ebene zwischen Proteinzielen und Liganden erfassen und eine höhere Rechenleistung erzielen kann.

Der Prozess der Molekülgenerierung wurde als globale Autoregression und atomare Autoregression formuliert, um die Geometrie der Proteintaschen besser zu berücksichtigen. Die Ergebnisse der Studie zeigten, dass die von ResGen erzeugten Moleküle im Vergleich zu den aktuellen Methoden nach dem neuesten Stand der Technik sinnvollere chemische Strukturen und eine bessere Zielaffinität aufweisen.

Holen Sie sich das Papier:

https://www.nature.com/articles/s42256-023-00712-7

Antworten Sie im öffentlichen WeChat-Konto auf „3D-Molekülgenerierung“, um das vollständige PDF zu erhalten

Datensatz: Die Sequenzähnlichkeit zwischen dem Trainingssatz und dem Testsatz beträgt weniger als 40%

Der in dieser Studie verwendete Trainingsdatensatz ist CrossDock2020, der für die Erforschung der Wechselwirkung zwischen Proteinen und kleinen Molekülen verwendet wird, insbesondere zur Bewertung der Bindungsfähigkeit von Molekülen an Proteintaschen.

Die Ausgangsdaten dieses Datensatzes enthalten mehr als 22 Millionen Protein-Liganden-Paare. Um sicherzustellen, dass die Sequenzähnlichkeit zwischen dem Trainingssatz und dem Testsatz weniger als 40% beträgt, untersuchten und erhielten die Forscher etwa 100.000 Protein-Liganden-Paare. Das Testset enthält 100 Proteintaschen.

Datensatzlink:

https://1lh.cc/DjuQrx

ResGen-Modell: Zwei hierarchische autoregressive

Das ResGen-Modell formuliert das Problem der Molekülerzeugung unter der Bedingung der Proteintaschenerkennung als autoregressives Problem auf zwei Ebenen, der globalen Ebene und der Ebene der atomaren Komponenten.Unter anderem bedeutet globale Autoregression, dass jedes von ResGen erzeugte Atom auf den in den vorherigen Schritten erzeugten Molekülfragmenten und Proteintaschenstrukturen basiert. Die atomare Autoregression generiert wiederum die neu hinzugefügten atomaren Koordinaten und die Topologie.


ResGen kann den gesamten Molekülgenerierungsprozess in eine schrittweise Stichprobennahme zerlegen und so die Generierung des gesamten Moleküls auf autoregressive Weise erreichen. Um Interaktionen auf höherer Ebene besser zu erfassen und den Rechenaufwand zu senken, führte das Forschungsteam außerdem eine parallele Multiskalenmodellierungstechnologie in dieses dreidimensionale Problem der bedingten Generierung ein.

ResGen-Framework-Diagramm


* Abbildung A veranschaulicht: Während des Prozesses der Molekülgenerierung werden die Wachstumspunkte schrittweise bestätigt, Atome hinzugefügt (globale Autoregression), die Positionen der Atome bestätigt und dann Kanten hinzugefügt (atomare Autoregression).
* Abbildung B zeigt: Taschen und Referenzmoleküle werden als atomare Merkmale (Vektor) und atomare Koordinaten (Skalar) dargestellt.
* Abbildung E veranschaulicht den Prozess der Molekülerzeugung. Die graue Punktwolke in i stellt die neu generierten Atome mit Positionsinformationen dar; Die grüne Punktwolke in II sind die neu generierten Atome mit zusätzlichen Atomtypen. Die roten Kreise stellen die Brennpunktatome (Wachstumspunkte) bei jedem Schritt dar und die Zahlen geben die Wahrscheinlichkeit an, mit der jedes Atom zu einem Wachstumspunkt wird.

Effektüberprüfung: Besser als das aktuelle Optimalmodell

Die ganze Zeit,Es gibt zwei weit verbreitete Testindikatoren für das auf Proteintaschen basierende 3D-Molekülgenerierungsmodell: ob das Modell die charakteristische topologische Verteilung der Liganden in verschiedenen Proteintaschen gelernt hat (d. h. die molekulare Graphverteilung des Ziels) und die Verteilung der Liganden in den Taschen.Geometrische Verteilung(d. h. die Rationalität der Atomposition und -konformation).


Zu diesem Zweck führte das Forschungsteam eine Reihe von Bewertungen von ResGen und bestehenden hochmodernen Modellen durch.


Für die erste Testmetrik bewertete das Team die Bindungsenergien und wirkstoffähnlichen Eigenschaften der Moleküle, die für die Ziele im Testsatz und echte therapeutische Ziele entwickelt wurden.


Für den zweiten Testindikator entwarf das Team ein Konformationsrationalitätsexperiment und analysierte das Interaktionsmuster zwischen dem Protein und kleinen Molekülen.

Generieren Sie Moleküle auf dem Testsatz: Bewerten Sie die Generalisierungsfähigkeit des Modells

Die 5 wichtigsten Moleküleigenschaften im CrossDock-Testset

Die Vergleichsergebnisse zeigten, dass die von ResGen erzeugten Moleküle die GraphBP  und von Pocket2Mol generierte Moleküle.

GraphBP:Ein 3D-Graph-Neuralnetzwerk wird verwendet, um semantische Informationen zu extrahieren, und dann werden Atome sequenziell durch ein autoregressives Flussmodell generiert. Ein 3D-Molekül, das an ein bestimmtes Protein bindet, wird erzeugt, indem Atome eines bestimmten Typs und einer bestimmten Position nacheinander in eine bestimmte Bindungsstelle eingefügt werden.

Pocket2Mol:Es wird verwendet, um die chemischen und geometrischen Merkmale von 3D-Proteintaschen zu modellieren und verwendet einen neuen effizienten Algorithmus, um basierend auf den Taschenbedingungen neue 3D-Arzneimittelkandidaten zu testen.

Wie in der Abbildung oben gezeigt, stellt der Vina Score die Bindungsenergie zwischen dem generierten Molekül und dem entsprechenden Proteinziel dar. Dieser Indikator kann bis zu einem gewissen Grad widerspiegeln, ob das Modell die chemische Umgebung in der Tasche wahrnimmt.

ResGens Leistung beim Vina Score bedeutet, dassResGen hat eine bessere Chance, Moleküle zu erzeugen, die fester an das Ziel binden.Das Forschungsteam glaubt, dass dies daran liegen könnte, dass ResGen zur Charakterisierung der Struktur eine Multiskalenmodellierung verwendet, da sich mit dieser Struktur Interaktionen auf höherer Ebene zwischen Proteintaschen und Liganden (wie etwa Fragment-Rest-Interaktionen) besser erfassen lassen.


Darüber hinaus hängt die Weiterentwicklung einer organischen Verbindung zu einem Arzneimittelkandidaten nicht nur von der Stärke ihrer Wechselwirkung mit Proteinen ab, sondern auch von ihrer Arzneimittelähnlichkeit und Synthetisierbarkeit. Daher wurden Arzneimittelähnlichkeitsindikatoren wie QED, SA, Lipinski und LogP in die Bewertung einbezogen. ResGen erzielte bei den SA- und Lipinski-Indikatoren die höchsten Werte.Dies deutet darauf hin, dass ResGen ein größeres Potenzial hat, leicht synthetisierbare, medikamentenähnliche Liganden für unbekannte Proteintaschen zu erzeugen.

Molekulare Generierung gegen reale Ziele: Bewertung der Leistung in realistischen Szenarien

Um die Leistung des Modells in realen Szenarien der Arzneimittelentwicklung zu bewerten, verwendete das Forschungsteam AKT1 und CDK2 (Cyclin-abhängige Kinase 2) in Proteinkinase B als Fälle, sortierte ihre Zielstrukturen und Ligandenverbindungen mit experimenteller Aktivität aus und wählte zufällig eine Charge inaktiver kleiner Moleküle als negative Kontrollen aus.

Die obige Abbildung zeigt die Bindungsaffinitätsverteilung jeder Molekülgruppe. Je weiter die Verteilung nach links verläuft, desto größer ist der Absolutwert der Bindungsenergie und desto höher ist die Affinität. Die Ergebnisse zeigen, dass die von ResGen (grün) generierten Moleküle nicht nur höhere Werte aufweisen als die Negativkontrolle (Random) und andere bestehende hochmoderne Modelle, sondern auch eine Gesamtverteilung haben, die sogar etwas besser ist als Active.

Experiment zur Bindungslängenverteilung: Beurteilung der Konformationsplausibilität

Im Konformationsrationalitätsexperiment berechnete das Forschungsteam die mittlere quadratische Abweichung zwischen den direkt generierten Molekülkonformationen und denen, die mit herkömmlicher Konformationssoftware generiert wurden, und verglich die Bindungslängenverteilung zwischen den generierten Proben und den Trainingsmolekülen.

Unter den 7 BindungslängenResGen schneidet unter den 5 Bindungslängen am besten ab und übertrifft GraphBP deutlich (ungefähr 10-mal). Im Vergleich zu den beiden anderen aktuellen hochmodernen Modellen erzeugt ResGen glattere Konformationen, was seine ausgeprägte Fähigkeit unterstreicht, die komplexe geometrische Verteilung innerhalb von Proteintaschen zu erfassen.

Vergleich der Bindungslängenverteilung verschiedener Methoden mit der des Trainingsdatensatzes

AlphaFold  Prädiktive Strukturanalyse: Bewertung der Modellempfindlichkeit gegenüber Wechselwirkungen

Um zu überprüfen, ob ResGen die Interaktionsmuster, die von der Zielgeometrie und der Empfindlichkeit des Modells gegenüber Protein-Kleinmolekül-Interaktionen abhängen, erfolgreich gelernt hat, generierte das Forschungsteam zwei Molekülgruppen basierend auf der Röntgenkristallstruktur und der von AlphaFold vorhergesagten Struktur und verglich die strukturellen Merkmale der beiden Molekülgruppen.


Basierend auf Kristallstrukturen und durch AlphaFold vorhergesagten Strukturen generierte Moleküle. Die weißen Liganden sind Co-Kristallliganden und X Å ist der RMSD zwischen der vorhergesagten Struktur und der wahren Struktur nach der Ausrichtung. Die weißen Kugeln in der ersten Spalte stellen mögliche Bindungsstellen dar.


Die von AlphaFold vorhergesagte Konformation „schließt“ die in der Kristallkonformation vorhandene Tasche, wodurch das Modell nicht in der Lage ist, ein vollständiges Molekül an der ursprünglichen Taschenposition zu erzeugen, sondern stattdessen kleine Fragmente in der neu gebildeten Höhle erzeugt, was darauf hindeutet, dass der Molekülerzeugungsprozess von ResGen empfindlich von der gegebenen Proteintasche abhängt.

Die in der von AlphaFold vorhergesagten Konformation gebildete Tasche unterscheidet sich weniger von der kristallografischen Tasche, aber das Modell kann diese Änderung dennoch erfassen. Die von ResGen erzeugten Moleküle besetzen mehr Hohlraumstrukturen in der von AlphaFold vorhergesagten Konformation (wie im roten Kreis in der Abbildung gezeigt).


Dieses Experiment demonstriert die Empfindlichkeit von ResGen gegenüber der Zielstruktur und weist auch auf die Bedeutung der korrekten Proteinstruktur für die SBMG-Strategie hin.

AlphaFold2 leitet Rückschlüsse auf die Proteinstruktur abAusführliches Tutorial:

https://openbayes.com/console/public/tutorials/m6k2bdSu30C

AlphaFold-Proteinstruktur-Datensatz:

https://openbayes.com/console/public/datasets/ETTgyY1oZat/1/overview

Klicken Sie auf „Originaltext lesen“, um mit einem Klick einzutreten, ohne den Datensatz herunterzuladen

Hou Tingjun: Widmet sich der Erforschung zentraler Fragen des computergestützten Arzneimitteldesigns

Die Molekülerzeugung ist eine typische Mehrzieloptimierungsaufgabe. Die von uns erzeugten Moleküle müssen nicht nur eine gute Affinität, sondern auch eine gute Arzneimitteltauglichkeit, geringe Toxizität, hohe synthetische Eigenschaften usw. aufweisen.

——Hou Tingjun

Im traditionellen Arzneimittelentdeckungsprozess sind mit Arzneimittelinnovationen Probleme wie lange F&E-Zyklen, hohe Investitionen und hohe Risiken verbunden. Die Entdeckung und Optimierung von Leitsubstanzen ist die anspruchsvollste Phase im gesamten Arzneimittelentdeckungsprozess, da dabei die enorme chemische Vielfalt der Verbindungen (die die Größenordnung von 10 hoch 60 erreichen kann) überwunden werden muss. Darüber hinaus ist der Screening-, Optimierungs- und Bewertungsprozess von Leitsubstanzen sehr komplex.

Durch Deep Learning und Big-Data-Analyse kann KI große Mengen bioinformatischer Daten effizient verarbeiten und interpretieren, in riesigen Datensätzen verborgene Muster und Zusammenhänge entdecken, die Genauigkeit bei der Identifizierung potenzieller Wirkstoffziele verbessern und den Prozess des Arzneimittelscreenings und -designs beschleunigen.

Mit dem Ziel, den Bereich der KI-gestützten Arzneimittelentwicklung zu erreichen,Professor Hou Tingjun und sein Team betreiben bahnbrechende interdisziplinäre Forschung zu Kernfragen der computergestützten Arzneimittelentwicklung.Und wir haben eine Reihe wertvoller Ergebnisse erzielt, wie zum Beispiel:

* Im Bereich des molekularen Dockings und des virtuellen Screenings haben wir eine neue Bewertungsmethode für Protein-Kleinmolekül-Interaktionen basierend auf Graph Representation Learning (IGN) und ein Hochdurchsatz-Framework für molekulares Docking basierend auf Deep Learning vorgeschlagen. KarmaDock  Warten. 

* Im Hinblick auf die intelligente Molekülgenerierung und -optimierung haben wir die ligandenbasierte Methode zur Molekülgenerierung mit mehreren Einschränkungen MCMG und die 3D-Molekülgenerierungsmethode SurfGen basierend auf topologischen Oberflächen und geometrischen Strukturen vorgeschlagen.

*Im Hinblick auf die molekulare Arzneimitteltauglichkeits- und Sicherheitsbewertung haben wir die Toxizitätsvorhersagemethode MGA basierend auf dem Multi-Graph-Attention-Modell und dem Arzneimitteltauglichkeitsvorhersagesoftwaresystem ADMETlab2.0 vorgeschlagen.

Darüber hinaus entwickelte das Team von Professor Hou Tingjun auch eine auf Substrukturmaskierung basierende Interpretierbarkeitsmethode SME für KI-Modelle, die eine Lösung für die Interpretierbarkeit von KI-Modellen vorschlug.

Obwohl der große Wert der KI in der Arzneimittelentwicklung immer deutlicher wird, kann es bei ihrer tatsächlichen Umsetzung als noch junge Forschung noch entsprechende Herausforderungen geben, und genau diese werden in Zukunft die wichtigsten Forschungsrichtungen sein.

In diesem Zusammenhang sagte Professor Hou Tingjun:Die Richtungen und Herausforderungen, auf die sich der Schwerpunkt im Bereich der KI-gestützten Arzneimittelforschung in Zukunft konzentrieren muss, sind die Frage, wie sich die Vorhersagefähigkeit KI-basierter Methoden zur Eigenschaftsvorhersage, die Vorhersagefähigkeit KI-basierter Bewertungsfunktionen beim virtuellen Screening und die Vorhersagegenauigkeit wichtiger Arzneimittelparameter und Toxizitätsendpunkte effektiv verbessern lassen.

Quellen:
https://mp.weixin.qq.com/s/cxpbeGmrHULcWsbVbvQmJA