HyperAIHyperAI
vor 18 Tagen

DiffMS: Diffusionsbasierte Generierung von Molekülen bedingt auf Massenspektren

Montgomery Bohde, Mrunali Manjrekar, Runzhong Wang, Shuiwang Ji, Connor W. Coley
DiffMS: Diffusionsbasierte Generierung von Molekülen bedingt auf Massenspektren
Abstract

Die Massenspektrometrie spielt eine zentrale Rolle bei der Aufklärung der Strukturen unbekannter Moleküle und damit bei nachfolgenden wissenschaftlichen Entdeckungen. Eine Formulierung der Strukturaufklärungsaufgabe besteht in der bedingten de-novo-Generierung molekularer Strukturen anhand eines Massenspektrums. Um einen präziseren und effizienteren wissenschaftlichen Entdeckungsprozess für kleine Moleküle zu ermöglichen, stellen wir DiffMS vor – ein formelbeschränktes Encoder-Decoder-Generativnetzwerk, das auf dieser Aufgabe state-of-the-art-Leistung erzielt. Der Encoder nutzt eine Transformer-Architektur und modelliert Domänenwissen aus dem Massenspektrometrie-Bereich, wie beispielsweise Peak-Formeln und neutrale Verluste. Der Decoder ist ein diskreter Graph-Diffusionsmodell, das durch die Schweratomzusammensetzung einer bekannten chemischen Formel eingeschränkt ist. Um einen robusten Decoder zu entwickeln, der latente Embeddings mit molekularen Strukturen verbindet, prätrainieren wir den Diffusionsdecoder mit Fingerprint-Struktur-Paaren, die im Vergleich zu Struktur-Spektrum-Paaren, deren Anzahl in der Größenordnung von Zehntausenden liegt, praktisch unendlich verfügbar sind. Umfassende Experimente an etablierten Benchmarks zeigen, dass DiffMS bestehende Modelle bei der de-novo-Generierung von Molekülen übertrifft. Wir führen mehrere Ablationen durch, um die Wirksamkeit unseres Diffusions- und Prätrainingsansatzes zu demonstrieren, und zeigen eine konsistente Leistungssteigerung mit zunehmender Größe des Prätrainingsdatensatzes. Der DiffMS-Code ist öffentlich unter https://github.com/coleygroup/DiffMS verfügbar.

DiffMS: Diffusionsbasierte Generierung von Molekülen bedingt auf Massenspektren | Neueste Forschungsarbeiten | HyperAI