MassSpecGym : Un benchmark pour la découverte et l'identification des molécules

La découverte et l'identification de molécules dans des échantillons biologiques et environnementaux sont cruciales pour faire progresser les sciences biomédicales et chimiques. La spectrométrie de masse en tandem (MS/MS) est la technique de pointe pour l'élucidation à haut débit des structures moléculaires. Cependant, décoder une structure moléculaire à partir de son spectre de masse est extrêmement difficile, même lorsqu'elle est effectuée par des experts humains. Par conséquent, la grande majorité des spectres MS/MS acquis restent non interprétés, limitant ainsi notre compréhension des processus (bio)chimiques sous-jacents. Malgré des décennies de progrès dans les applications d'apprentissage automatique pour prédire les structures moléculaires à partir de spectres MS/MS, le développement de nouvelles méthodes est gravement entravé par le manque de jeux de données standards et de protocoles d'évaluation. Pour résoudre ce problème, nous proposons MassSpecGym -- la première référence complète pour la découverte et l'identification de molécules à partir de données MS/MS. Notre référence comprend la plus grande collection publiquement disponible de spectres MS/MS étiquetés de haute qualité et définit trois défis d'annotation MS/MS : la génération dé novo de structures moléculaires, la recherche de molécules et la simulation du spectre. Elle inclut également de nouvelles métriques d'évaluation et une division des données exigeante en termes de généralisation, ce qui standardise les tâches d'annotation MS/MS et rend le problème accessible à la large communauté d'apprentissage automatique. MassSpecGym est disponible au public sur https://github.com/pluskal-lab/MassSpecGym.