MADGEN: Massenspektrometrie für de novo Molekülerzeugung

Die Annotation (Zuweisung struktureller chemischer Identitäten) von MS/MS-Spektren bleibt aufgrund der enormen molekularen Vielfalt in biologischen Proben und des begrenzten Umfangs von Referenzdatenbanken eine erhebliche Herausforderung. Der Großteil der Spektalmessungen verbleibt derzeit im „dunklen chemischen Raum“ ohne strukturelle Annotationen. Um die Annotation zu verbessern, schlagen wir MADGEN (Mass-spec Attends to De Novo Molecular GENeration) vor, eine gerüstbasierte Methode zur de-novo-Molekülstrukturgenerierung, die durch Massenspektrometriedaten geleitet wird.MADGEN arbeitet in zwei Phasen: Gerüst-Retrieval und spektrumbedingte Molekülgenerierung, beginnend mit dem Gerüst. In der ersten Phase formulieren wir das Gerüst-Retrieval als ein Rangierungsproblem und verwenden kontrastives Lernen, um Massenspektren mit potentiellen molekularen Gerüsten auszurichten. In der zweiten Phase starten wir von dem abgerufenen Gerüst aus und nutzen das MS/MS-Spektrum, um ein aufmerksamkeitsbasierendes Generativmodell zu steuern, das das endgültige Molekül generiert.Unser Ansatz reduziert den Suchraum für die Molekülgenerierung, was seine Komplexität verringert und die Generierungsgenauigkeit erhöht. Wir evaluieren MADGEN anhand dreier Datensätze (NIST23, CANOPUS und MassSpecGym) und testen dessen Leistung sowohl mit einem prädiktiven als auch mit einem orakelbasierten Gerüst-Retriever. Wir zeigen die Effektivität des Einsatzes von Aufmerksamkeit auf, um spektrale Informationen während des gesamten Generierungsprozesses zu integrieren, wodurch starke Ergebnisse mit dem orakelbasierten Retriever erzielt werden können.