Apprentissage auto-supervisé de représentations moléculaires à partir de millions de spectres de masse en tandem utilisant DreaMS

La caractérisation des échantillons biologiques et environnementaux à un niveau moléculaire repose principalement sur la spectrométrie de masse en tandem (MS/MS), bien que l'interprétation des spectres de masse en tandem issus d'expériences métabolomiques non ciblées reste un défi. Les méthodes informatiques actuelles pour les prédictions à partir de spectres de masse s'appuient sur des bibliothèques spectrales limitées et sur une expertise humaine codifiée. Nous présentons ici un réseau neuronal basé sur le modèle transformer, pré-entraîné de manière auto-supervisée sur des millions de spectres de masse en tandem non annotés provenant de notre ensemble de données GNPS Experimental Mass Spectra (GeMS) extrait du dépôt MassIVE GNPS. Nous montrons que le pré-entraînement de notre modèle pour prédire les pics spectraux masqués et les ordres de rétention chromatographique conduit à l'émergence de représentations riches des structures moléculaires, que nous avons nommées Deep Representations Empowering the Annotation of Mass Spectra (DreaMS). Un affinage ultérieur du réseau neuronal permet d'obtenir des performances d'avant-garde dans diverses tâches. Nous mettons notre nouveau jeu de données et notre modèle à disposition de la communauté et publions l'Atlas DreaMS—un réseau moléculaire composé de 201 millions de spectres MS/MS construit à l'aide des annotations DreaMS.