HyperAIHyperAI

NVIDIA Schlägt ReaSyn Vor, Das Auf Der Analogie Der Molekularen Synthese Von Gedankenketten Basiert, Um Eine Ultrahohe Rekonstruktionsrate Und Pfadvielfalt Zu erreichen.

特色图像

Die zentrale Herausforderung der modernen Arzneimittelforschung besteht darin, Moleküle mit therapeutischem Potenzial in einem nahezu unbegrenzten chemischen Raum genau zu identifizieren. Die traditionelle Arzneimittelforschung steht dabei oft vor einem doppelten Dilemma: Der chemische Raum ist unglaublich groß, die Zahl möglicher Moleküle, die aus nur 10 Atomen bestehen, kann bis zu 10⁶⁰ betragen. Das macht das Screening so schwierig wie die Suche nach der Nadel im Heuhaufen. Darüber hinaus müssen Kandidatenmoleküle zahlreiche Anforderungen erfüllen, darunter Aktivität, Toxizität und Löslichkeit. Dies führt zu Entwicklungszyklen von oft mehr als 10 Jahren, Kosten in Milliardenhöhe und einer Erfolgsquote von weniger als 10%.

Molekulare generative Modelle galten einst als vielversprechende Lösung für diese Herausforderung. Mithilfe von Algorithmen zur Simulation der Molekülstrukturgenerierung versprach diese Technologie, die Entdeckungszyklen deutlich zu verkürzen und sogar „On-Demand-Design“ zu ermöglichen. In der Praxis zeigte sich jedoch, dass modellgenerierte Moleküle im Labor oft nur schwer synthetisiert werden konnten. Diese „papierbasierte“ Einschränkung schränkte ihren praktischen Nutzen erheblich ein.

Um diesen Engpass zu überwinden, hat die akademische Gemeinschaft zwei Strategien ausprobiert: Eine besteht darin, „Synthetisierbarkeit“ als Optimierungsziel zu verwenden und die Generierung leicht zu synthetisierender Moleküle durch Scoring zu steuern. Aufgrund der Komplexität der Struktur-Synthetisierbarkeits-Beziehung und der Schwierigkeit, experimentelle Variablen durch Scoring abzudecken, ist der Effekt jedoch begrenzt; die andere besteht darin, das Modell auf die Untersuchung bekannter synthetisierbarer Moleküle zu beschränken. Dies verbessert zwar die Steuerbarkeit, geht aber zu Lasten struktureller Innovation. Die Strategie der „Synthetisierbaren Projektion“ hat daher Aufmerksamkeit erregt. Ihr Kern besteht darin, nicht synthetisierbare Moleküle in Analoga mit ähnlicher Struktur und klaren Synthesewegen zu „korrigieren“.Diese Strategie kann mehrere Generierungsmethoden flexibel integrieren, um Aufgaben wie die Erweiterung aktiver Verbindungen und die Leitoptimierung zu unterstützen.

In diesem ZusammenhangReaSyn, ein effizientes und synthetisierbares molekulares Projektionsframework mit integrierten Schlussfolgerungsfunktionen, das vom NVIDIA-Forschungsteam eingeführt wurde,Durch die Übernahme der Reaktionskettendarstellung (CoR) und die Betrachtung des Synthesepfads als Gedankenkettenpfad (CoT) von LLM wurde ein neuer Weg zur Lösung der praktischen Probleme der Molekülsynthese eröffnet.

Bei der Rekonstruktion synthetisierbarer MoleküleReaSyn erreichte die höchste Rekonstruktionsrate und Pfadvielfalt;Darüber hinaus wurde die beste Optimierungsleistung bei der synthetisierbaren zielgerichteten molekularen Optimierung erzielt und frühere Methoden bei der Aufgabe der synthetisierbaren Treffererweiterung deutlich übertroffen.

Die entsprechenden Forschungsergebnisse wurden auf arXiv unter dem Titel „Rethinking Molecule Synthesizability with Chain-of-Reaction“ veröffentlicht.

Forschungshighlights:

* Diese Studie schlägt das ReaSyn-Framework und die Reaktionskettendarstellung (CoR) vor, um synthetische Pfade in erklärbare Gedankenketten für die Schlussfolgerung umzuwandeln.

* Maßgeschneiderte Lösungen zur Feinabstimmung von RL und zur rechnerischen Erweiterung verbessern die Explorationseffizienz und Optimierungsleistung des Modells erheblich.

* Durch Multitasking-Experimente werden die Wirksamkeit und Vielseitigkeit des Frameworks bei der Erzeugung und Optimierung synthetisierbarer Moleküle bestätigt.


Papieradresse:
https://arxiv.org/abs/2509.16084
Folgen Sie dem offiziellen Konto und antworten Sie mit „ReaSyn“, um das vollständige PDF zu erhalten

Weitere Artikel zu den Grenzen der KI:

https://hyper.ai/papers

Aufbau eines Datensatzes nahe an der realen Arzneimittelentwicklung

Die Studie konstruierte zunächst einen experimentellen Rahmen, der dem realen Szenario der Arzneimittelentwicklung nahekommt. Dazu wurde ein Reaktionssatz mit 115 gängigen Reaktionstypen verwendet und mit 212.000 käuflichen Bausteinen aus dem US-Inventarkatalog von Enamine kombiniert.Zusammen definieren sie einen synthetischen chemischen Raum mit einer Größe von mehr als 10⁶⁰ Molekülen.Das Experiment konzentriert sich auf die Aufgabe der „Rekonstruktion synthetisierbarer Moleküle“ und zielt darauf ab, die Fähigkeit des Modells zu testen, einen großen chemischen Raum abzudecken, indem es praktikable Synthesewege für gegebene Moleküle generiert.

Beim Testset-Design verwendete das Forschungsteam mehrere Molekülsätze mit unterschiedlichen Herausforderungen.Zusätzlich zu einem Basis-Testset von 1.000 zufällig ausgewählten Molekülen aus dem Enamine REAL-Diversitätsdatensatz und der ChEMBL-Datenbank wurde ein erweitertes Testset erstellt, um das reale Szenario der „Bausteinbestandsaktualisierung“ in der Arzneimittelentwicklung zu simulieren. Über 37.000 Moleküle mit weniger als 18 schweren Atomen wurden aus der ZINC250k-Bibliothek als neue Bausteine ausgewählt und 1.000 Testmoleküle aus diesem erweiterten Bestand generiert. Das Experiment umfasste auch das von Luo et al. vorgeschlagene ChEMBL-Testset, um die Vergleichbarkeit mit bestehenden Forschungsergebnissen zu gewährleisten.

ReaSyn Framework: Ein fortschrittlicher Technologieweg von der molekularen Darstellung zur Inferenzverbesserung

Das ReaSyn-Framework zielt darauf ab, wichtige Inferenzengpässe bei der Projektion synthetisierbarer Moleküle zu beheben.Sein technischer Weg folgt einer fortschreitenden Logik von Innovationen in der molekularen Darstellung bis hin zu verbesserten Denkfähigkeiten.

Wie in der folgenden Abbildung dargestellt, wurde in der Studie zunächst der synthetisierbare chemische Raum klar definiert: Dieser Raum wird durch eine Reihe von Bausteinen und Reaktionsregeln bestimmt. Jede Reaktion beschreibt die Umwandlung von Reaktanten in Produkte mithilfe der SMARTS-Sprache, während der synthetisierbare Raum die Menge aller Produkte darstellt, die aus den ursprünglichen Bausteinen durch iterative Anwendung von Reaktionsregeln gewonnen werden können. In diesem Rahmen besteht das Hauptziel der synthetisierbaren Projektion darin, einen Syntheseweg 𝑝 für ein gegebenes Zielmolekül 𝑥 zu generieren, sodass die strukturelle Ähnlichkeit zwischen dem Endprodukt des Weges und 𝑥 maximiert wird.


ReaSyns Gesamtrahmen

In Bezug auf die Darstellung des molekularen Syntheseweges, wie in der folgenden Abbildung gezeigt,ReaSyn hat als Innovation die Repräsentationsstrategie „Chain-of-Reaction (CoR)“ vorgeschlagen.Dadurch werden die verschiedenen Einschränkungen der traditionellen „synthetischen Baumsuffixdarstellung“ überwunden. Traditionelle Methoden unterstützen zwar die autoregressive Generierung, weisen jedoch inhärente Mängel auf, wie etwa die Notwendigkeit des impliziten Lernens von Reaktionsregeln, die Anfälligkeit hierarchischer Vorhersagen für Fehlerfortpflanzung und die fehlende Bijektivität bei der Darstellung von Baustein-Fingerabdrücken.

Mit der Methode der Reaktionskettendarstellung wurden unter Beibehaltung ihrer Vielseitigkeit drei wichtige Durchbrüche erzielt: die Integration der Gedankenkette (CoT) auf der Ebene chemischer Reaktionen, die Erzielung einer vollständigen Pfadvorhersage ohne hierarchische Klassifizierung und die Eliminierung der Abhängigkeit von molekularen Fingerabdrücken.

In einer konkreten Implementierung wird der Syntheseweg in mehrere Funktionsblöcke zerlegt, die alle ein einheitliches Vokabular verwenden. Molekulare Blöcke werden durch SMILES-Strings mit speziellen Tags dargestellt, während Reaktionsblöcke durch einzelne Token repräsentiert werden. Abschließend wird durch Spleißvorgänge eine vollständige Pfadsequenz erstellt.


CoR-Notation

Das Modelltraining basiert auf einer zweistufigen Strategie, die überwachtes Lernen und Feinabstimmung durch bestärkendes Lernen kombiniert.

In der überwachten Lernphase werden die gepaarten Daten von Zielmolekülen und synthetischen Pfaden verwendet, um das Transformer-Modell mit dem Ziel zu trainieren, das nächste Token vorherzusagen.Und durch die Entwicklung einer gewichteten Verlustfunktion für Token-Typen wird die Lernintensität verschiedener Token-Typen ausgeglichen, während mithilfe von Zwischenprodukten umfassendere Überwachungssignale bereitgestellt werden.Der Online-Algorithmus für bestärkendes Lernen wird in der Feinabstimmungsphase des bestärkenden Lernens verwendet.Der Belohnungsmechanismus wird verwendet, um das Modell zu leiten, um effektivere Pfade zu erkunden. Seine Verlustfunktion berücksichtigt nicht nur die Maximierung der Pfadbelohnungen, sondern konzentriert sich auch auf die Stabilität des Modellverhaltens und gleicht so die Einschränkungen des überwachten Lernens bei den Erkundungsmöglichkeiten effektiv aus.

In der InferenzphaseReaSyn kombiniert eine Stack-Struktur mit einem Beam-Search-Mechanismus, um eine zielgerichtete Skalierung der Testzeit zu erreichen und Bewertungsstrategien an unterschiedliche Aufgabenanforderungen anzupassen. Der Stack verwaltet dynamisch Reaktanten und Zwischenprodukte und unterstützt den schrittweisen Denkprozess. Beam Search erhält die Suchvielfalt durch die Bereitstellung mehrerer hoch bewerteter Kandidatenpfade.

Bei der Aufgabe der molekularen RekonstruktionDie Bewertungsstrategie konzentriert sich auf strukturelle Ähnlichkeit und Reaktionsdurchführbarkeit, um eine genaue Reproduktion des Zielmoleküls sicherzustellen. Bei den Aufgaben zur molekularen Optimierung und Aktivitätserweiterung wird ein Belohnungsmodell eingeführt, um die Zieleigenschaften von Bausteinen und Zwischenprodukten zu bewerten, die Suche nach synthetisierbaren Molekülen mit idealen Eigenschaften zu lenken und eine gezielte Erkundung und Optimierung innerhalb des synthetisierbaren Raums zu ermöglichen.

Experimentelle Ergebnisse: Die Multitasking-Leistung übertrifft SynNet und andere Methoden, und Ablationsexperimente bestätigen die Wirksamkeit der Kernkomponenten

Die experimentellen Ergebnisse sind in der folgenden Tabelle dargestellt.ReaSyn weist bei mehreren wichtigen Aufgaben eine bessere Gesamtleistung als bestehende SynNet- und SynFormer-Methoden auf.

Vergleich der Methoden ReaSyn, SynNet und SynFormer

Bei der Optimierung synthetisierbarer ZielmoleküleDer Forschungsschwerpunkt lag auf der Frage, wie ReaSyn die Praktikabilität herkömmlicher Optimierungsmethoden verbessern kann.Diese Aufgabe verwendet den Graphengenetischen Algorithmus (Graph GA) als Grundgerüst und führt nach dem Züchtungsschritt ReaSyn ein, um eine synthetisierbare Projektionsverarbeitung durchzuführen und sicherzustellen, dass sich alle erhaltenen Moleküle im synthetisierbaren Raum befinden. Diese Methode heißt Graph GA-ReaSyn.

Das Experiment ist in zwei Teile gegliedert: Zum einen die allgemeine Eigenschaftsoptimierung auf Basis der TDC-Orakelfunktion und zum anderen die gezielte Optimierung der Bindungsaffinität für lösliche Epoxidhydrolase (sEH).

In der TDC-MissionWie die folgende Tabelle zeigt, übertraf Graph GA-ReaSyn alle synthetischen Constraint-basierten Basismethoden in der „AUC Top-10“-Metrik bei 15 Optimierungsaufgaben, und sein synthetischer Zugänglichkeitswert (SA-Score) war deutlich besser als der des ursprünglichen Graph GA. Dies deutet darauf hin, dass ReaSyn die Synthetisierbarkeit bei gleichbleibender Optimierungsleistung effektiv verbesserte. Bei der sEH-Affinitätsoptimierung übertraf ReaSyn Methoden wie FragGFN, SynFlowNet und SyntheMol in Bezug auf Bindungsaffinität, SA-Score und Arzneimittelähnlichkeit (QED).Insbesondere werden seine Vorteile hinsichtlich der Ausgewogenheit von Zieleigenschaften und Synthetisierbarkeit hervorgehoben.

Optimierungsergebnisse synthetisierbarer zielgerichteter Moleküle in TDC-Aufgaben

Bei der Aufgabe, das Spektrum synthetischer Wirkstoffe zu erweitern,ReaSyn nutzt die Beam Search-Technologie, um mehrere strukturell ähnliche und synthetisierbare Analoga bekannter Wirkstoffe zu generieren und so die Bibliothek der Kandidatenmoleküle zu erweitern. Das Experiment nutzte JNK3-Inhibitoren als Forschungsziel. Als Ausgangspunkt wurden die zehn am besten bewerteten Moleküle aus der ZINC250k-Datenbank ausgewählt und für jedes Molekül 100 Analoga generiert.Bei der Bewertung anhand von drei Indikatoren, nämlich „Analograte“, „Verbesserungsrate“ und „Erfolgsrate“, übertraf ReaSyn vorherige Methoden bei allen Indikatoren.

KI-gesteuerte Vorhersage synthetischer Pfade fördert Innovationen beim Design synthetisierbarer Moleküle

Während KI-gesteuerte Technologien zur Vorhersage von Synthesewegen wie ReaSyn entwickelt werden, erforschen auch die akademischen und geschäftlichen Gemeinschaften weltweit aktiv dieses Feld und treiben Innovationen bei der Entwicklung synthetisierbarer Moleküle aus verschiedenen Pfaden voran.


Akademische Forschung konzentriert sich oft auf Durchbrüche bei neuen Methoden und zugrunde liegenden Mechanismen. Zum Beispiel:Organa, ein Desktop-Robotersystem, das von der Universität Toronto entwickelt wurde,Durch die Kombination von Computer Vision und einem großen Sprachmodell (LLM) ist es möglich, Anweisungen in natürlicher Sprache in χDL-Code (Standard Chemical Description Language) umzuwandeln, einige Aufgaben im chemischen Labor zu automatisieren und so die verbalen Anweisungen von Wissenschaftlern in experimentelle Prozesse umzuwandeln.

Mobile Robotic Chemist, ein von der Universität Liverpool unabhängig entwickelter KI-Chemiker,In 8 Tagen wurden 688 Experimente durchgeführt, in einer Woche wurden 1.000 katalytische Formeln untersucht und ein neuer Katalysator wurde entdeckt.


Bei Innovationen in der Geschäftswelt liegt der Schwerpunkt eher auf der Umsetzung fortschrittlicher Technologien in tatsächliche Produktivität und deren Integration in bestehende Arbeitsabläufe.Die strategische Zusammenarbeit zwischen BenevolentAI, einem britischen Unternehmen, das auf die Erforschung und Entwicklung von Medikamenten auf Basis künstlicher Intelligenz spezialisiert ist, und Merck ist sehr repräsentativ.Ersteres stützt sich auf die chemischen Designtools seiner End-to-End-KI-Plattform, kombiniert mit Nasslaboreinrichtungen in Cambridge, Großbritannien, um Mercks Arzneimittelforschungs- und -entwicklungspipeline mit umfassender Unterstützung von der Identifizierung aktiver Verbindungen bis zur präklinischen Entwicklung von Kandidatenmolekülen zu versorgen. Der Kern liegt in der Nutzung der Fähigkeiten großer Sprachmodelle zum Erschließen synthetischer Pfade, um sicherzustellen, dass die generierten niedermolekularen Verbindungen sowohl eine hohe Aktivität als auch eine hohe Synthetisierbarkeit aufweisen, wodurch der Umwandlungszyklus vom Konzept zum Kandidatenmolekül erheblich verkürzt wird.


Insilico Medicine, ein KI-basiertes Biotech-Unternehmen, hat den praktischen Wert des synthetischen Zugänglichkeitsdesigns in der End-to-End-Arzneimittelentwicklung unter Beweis gestellt. Sein Kandidat für ein Medikament gegen idiopathische Lungenfibrose, INS018_055, das mithilfe generativer KI entwickelt wurde, nutzt das integrierte, ReaSyn-ähnliche synthetisierbare Projektionsmodul, umIn präklinischen Studien wurde eine Erfolgsrate von 100 % bei der Synthese von TP3T erreicht.Darüber hinaus dauert es von der Zielfindung bis zur Bestimmung des Kandidatenmoleküls nur 18 Monate, was 60% kürzer ist als der Branchendurchschnitt.

Diese vielfältigen Untersuchungen aus Wissenschaft und Industrie, obwohl mit unterschiedlichen Einstiegspunkten und technischen Wegen, zielen alle auf ein Ziel ab: unsere Fähigkeit und Effizienz bei der Entwicklung und Synthese nützlicher Moleküle durch innovative Methoden zu verbessern und letztlich vielen Bereichen wie der Arzneimittelforschung und -entwicklung sowie der Entwicklung neuer Materialien neue Impulse zu verleihen.

Referenzlinks:
1.https://mp.weixin.qq.com/s/Mz64afMOOI_7m-Nqg_m5oQ
2.https://mp.weixin.qq.com/s/1Juv9z1-mUOR6Sip4KwvgQ
3.https://mp.weixin.qq.com/s/vhhb2OUtCRpbPLg8j4YsYQ