DiffMS : Génération de molécules par diffusion conditionnée par spectres de masse

La spectrométrie de masse joue un rôle fondamental dans l’élucidation des structures de molécules inconnues et dans les découvertes scientifiques ultérieures. Une formulation de cette tâche d’élucidation structurale consiste en la génération de novo conditionnelle de la structure moléculaire à partir d’un spectre de masse. Dans une perspective d’amélioration de la précision et de l’efficacité du processus de découverte scientifique appliqué aux petites molécules, nous présentons DiffMS, un réseau génératif encodeur-décodeur contraint par la formule chimique, qui atteint un niveau d’performance de pointe sur cette tâche. L’encodeur repose sur une architecture de transformer et intègre des connaissances spécifiques au domaine des spectres de masse, telles que les formules des pics et les pertes de masse neutres. Le décodeur, quant à lui, est un modèle de diffusion sur graphe discret, contraint par la composition en atomes lourds d’une formule chimique connue. Pour développer un décodeur robuste capable de relier les embeddings latents aux structures moléculaires, nous préentraînons le décodeur de diffusion à l’aide de paires empreintes-structure, dont la quantité est pratiquement illimitée, en comparaison avec les paires structure-spectre, dont le nombre se chiffre en dizaines de milliers. Des expériences étendues sur des benchmarks établis montrent que DiffMS surpasser les modèles existants en génération de novo de molécules. Nous proposons plusieurs analyses d’ablation pour démontrer l’efficacité de notre approche de diffusion et de préentraînement, ainsi qu’une évolution cohérente des performances avec l’augmentation de la taille du jeu de données utilisé pour le préentraînement. Le code de DiffMS est disponible publiquement à l’adresse suivante : https://github.com/coleygroup/DiffMS.