SYNCOGEN generiert synthetisierbare 3D-Moleküle mit Reaktionswegen.
Die Entwicklung von synthetisierbaren Molekülen ist ein zentraler Aspekt im modernen Arzneimittel- und Materialdesign. Generative Molekül-Design-Modelle haben den chemischen Raum erheblich erweitert, doch viele von ihnen generieren Moleküle, die in der Praxis schwer oder gar nicht herzustellen sind, was ihre praktische Anwendbarkeit einschränkt. Traditionelle Methoden, wie die Verwendung von Reaktionsvorlagen, berücksichtigen meist nur 2D-Molekülgraphen und verlieren dadurch wichtige 3D-Strukturinformationen, die für die biologische Aktivität entscheidend sind. Um diese Lücke zu schließen, haben Forscher der University of Toronto, University of Cambridge und McGill University ein neues Framework namens SYNCOGEN entwickelt. Dieses Modell modelliert gleichzeitig Reaktionswege und atomare Koordinaten während der Molekülgenerierung. Durch diese einheitliche Herangehensweise kann SYNCOGEN 3D-Molekülstrukturen erzeugen, die nicht nur physikalisch plausibel sind, sondern auch praktisch synthetisierbar. Dies ist ein entscheidender Schritt, um computergestützte Molekülentwürfe in die Laborpraxis zu übertragen. Zur Trainingsbasis für SYNCOGEN wurde das SYNSPACE-Datensatz erstellt, der über 600.000 synthetisierbare Moleküle enthält. Jedes Molekül wurde aus 93 kommerziellen Bausteinen und 19 robusten Reaktionsvorlagen konstruiert und mit mehreren energie-minimierten 3D-Konformationen annotiert. Dieser Datensatz bietet eine breite und zuverlässige Trainingsbasis, die realistischen chemischen Synthesen entspricht. Die Architektur von SYNCOGEN basiert auf einem modifizierten SEMLAFLOW-Backbone, einem SE(3)-äquivarianten neuronalen Netzwerk, das ursprünglich für die 3D-Molekülgenerierung konzipiert wurde. Während des Trainings wird Masked Graph Diffusion für die Reaktionsgraphen und Flow Matching für die atomaren Koordinaten eingesetzt. Zusätzlich werden während des Trainings chemische Gültigkeit und geometrische Realität durch Graph Cross-Entropy, Koordinaten-Mittelwert-Quadratfehler und Paarabstandsstrafen gewährleistet. Trainingszeitliche Einschränkungen wie Begrenzung der Kantenanzahl und Kompatibilitätsmaskierung sorgen dafür, dass nur chemisch gültige Moleküle generiert werden. SYNCOGEN erreicht führende Ergebnisse bei der generativen 3D-Molekülentwicklung und übertrifft bestehende Modelle, sowohl in der alle-Atom- als auch in der Graph-basierten Generierung. Es zeigt auch gute Leistungen bei der Molekül-Inpainting für Fragmentverknüpfung, einem wichtigen Schritt im Arzneimitteldesign. Das Modell kann leicht synthetisierbare Analogien komplexer Medikamente generieren, wobei die Kandidaten gute Docking-Scores und retrosynthetische Tractabilität aufweisen—ein Merkmal, das in traditionellen 3D-Generativmodellen selten erreicht wird. Die zukünftigen Anwendungen von SYNCOGEN umfassen die Bedingungsgenerierung aufgrund spezifischer Eigenschaften oder Protein-Bindungstaschen, die Erweiterung der Reaktions- und Bausteinbibliotheken sowie die Integration mit Labortechnologie für vollständig automatisierte Molekül-Synthese und -Testung. Dies könnte den Prozess der Arzneimittelforschung erheblich beschleunigen und neue Wege für die Materialwissenschaft eröffnen. In der Industrie wird SYNCOGEN als bedeutender Fortschritt angesehen, der die computergestützte Molekülentwicklung in Richtung laborpraktische Umsetzung vorantreibt. Es bietet eine vielversprechende Plattform, um Moleküle zu entwerfen, die nicht nur theoretisch attraktiv sind, sondern auch in der Praxis umsetzbar. Dies könnte zu einer schnelleren Identifizierung neuer Medikamente und Materialien führen, da es die Synthesebarkeit von Anfang an berücksichtigt.