HyperAI

Publié Dans Nature, Une Équipe De Recherche Russe Utilise L'apprentissage Automatique Pour Rechercher Des Milliards De Données De Spectrométrie De Masse Et Découvrir Des Réactions Chimiques Inconnues

特色图像

La spectrométrie de masse (MS) est l’une des technologies de base de la recherche chimique moderne. En mesurant le rapport masse/charge (m/z) des ions moléculaires, la spectrométrie de masse peut fournir des informations clés sur la formule moléculaire, la structure et même le mécanisme de réaction d'un composé. L'émergence de la spectrométrie de masse à haute résolution (HRMS) a augmenté la précision analytique au niveau de la partie par million (ppm), devenant ainsi la « référence absolue » dans la synthèse organique, la catalyse métallique, le développement de médicaments et d'autres domaines. Cependant, avec l’automatisation croissante des instruments, la quantité de données de spectrométrie de masse générées chaque jour par les laboratoires a dépassé le niveau du téraoctet (To), ce qui a entraîné l’accumulation de plusieurs To d’informations sur les ordinateurs. Mais actuellement,Les données expérimentales et MS reposent largement sur l’analyse manuelle, et les facteurs humains peuvent affecter la couverture de l’interprétation de l’analyse des données.Cela limite considérablement l’expérience.

Pour relever ce défi, des chercheurs de l'Académie des sciences de Russie et d'autres institutions ont introduit un moteur de recherche innovant basé sur l'apprentissage automatique (ML), MEDUSA Search.La distribution des isotopes des ions peut être recherchée dans des bases de données de spectres de masse haute résolution à plusieurs composants jusqu'au niveau TB.L’approche utilise un algorithme de recherche centré sur les isotopes amélioré par deux modèles d’apprentissage automatique collaboratifs pour aider à la découverte de réactions chimiques inconnues. Cette approche permet un examen rigoureux des données existantes afin de fournir un support valable aux hypothèses chimiques tout en réduisant le besoin d’expériences supplémentaires. De plus, en étendant l’approche de base, le modèle est capable de générer automatiquement des hypothèses de réaction et de révéler de nouvelles transformations chimiques. dans,Le processus de couplage hétérocycle-vinyle dans la réaction de Mizoroki-Heck s’est distingué dans les expériences, soulignant la capacité du moteur à résoudre des phénomènes chimiques complexes.

La recherche connexe, intitulée « Découvrir des réactions organiques grâce à un déchiffrement de données de spectrométrie de masse à l'échelle téramétrique grâce à l'apprentissage automatique », a été publiée dans Nature Communications.

Points saillants de la recherche
* Exploitation de réactions inconnues : au lieu de s’appuyer sur de nouvelles expériences, utilisez les données existantes pour exploiter des réactions chimiques inconnues, réduisant ainsi les coûts expérimentaux et la consommation de ressources. 

* Algorithme de recherche efficace : un algorithme de recherche de distribution isotopique unique combiné à un modèle d'apprentissage automatique peut rechercher avec précision des ions dans des données de spectrométrie de masse à grande échelle et réduire les erreurs de jugement.

* Développer la cognition chimique : découvrir de nouvelles voies de réaction et de nouveaux produits, tels que le processus de couplage hétérocyclique-vinyle dans la réaction de Mizoroki-Heck, et approfondir la compréhension des réactions chimiques.

Adresse du document : 

https://go.hyper.ai/ak7bN

Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s

Ensemble de données : Plus de 20 000 images de spectrométrie de masse, confirmant la présence d'ions réactifs

Étant donné que la plupart des signaux de spectrométrie de masse manquent d’analyse professionnelle, le laboratoire a accumulé et stocké une énorme quantité de données au cours des dernières années, et les données utilisées dans cette expérience proviennent toutes de cela. Ces données de spectrométrie de masse couvrent un large éventail d’études de transformation chimique.Le volume total de données dépasse 8 To, dont plus de 20 000 spectres de masse.Des données spectrométriques de masse haute résolution multicomposants à différentes résolutions sont stockées, permettant de confirmer la présence d'ions cibles dans une large gamme d'applications.

Recherche MEDUSA Au cours du processus de découverte de réaction, les formules d'ions générées sont recherchées dans l'ensemble de la base de données HRMS à l'échelle téramétrique pour trouver de nouvelles voies de réaction et de nouveaux produits, et les données sont visualisées.

L'ensemble de données a été visualisé à l'aide de la technique de réduction de dimensionnalité t-SNE. Pour démontrer la grande diversité de l’ensemble de données archivé, les chercheurs ont créé deux graphiques t-SNE.Les molécules collectées ont été échantillonnées de manière aléatoire à partir de la base de données PubChem et de composés enregistrés par spectrométrie de masse.Les composés enregistrés dans les spectres de masse analytiques couvrent bien l’espace chimique. Chaque point représente un spectre, les spectres de masse similaires sont proches les uns des autres sur le graphique et différents travailleurs ont enregistré des spectres différents qui ont été comparés les uns aux autres. Des expériences ont montré queLes composés dans les spectres de masse sont largement distribués dans l’espace chimique, et les spectres de masse enregistrés par différents chercheurs varient considérablement.Comme indiqué ci-dessous.

Graphique t-SNE (t-Distributed Stochastic Neighbor Embedding) des structures chimiques codées avec les empreintes digitales de Morgan
Graphiques t-SNE (t-Distributed Stochastic Neighbor Embedding) des données MS archivées utilisées dans cette étude. Chaque point représente un spectre de masse unique. Différentes couleurs indiquent l'opérateur du spectromètre de masse enregistreur (codé par lettre)

Les diverses données générées par l’étude ont été stockées sur Figshare.Ceci contient une archive ZIP de spectrométrie de masse de 9 Go,Tous les produits de découverte mentionnés sont couverts et des données supplémentaires de spectrométrie de masse de réaction sont incluses, qui peuvent être utilisées pour tester la fonctionnalité du moteur de recherche. Certaines données qui n’ont donné aucun résultat lors de la recherche ne peuvent pas être partagées publiquement en raison de la confidentialité ou des droits de propriété intellectuelle.
* figshare est un référentiel de données en ligne basé sur la technologie du cloud computing, où les chercheurs peuvent enregistrer et partager leurs résultats de recherche, y compris des données, des ensembles de données, des images, des vidéos, des affiches et des codes.

Ensemble de données de spectrométrie de masse haute résolution HRMS :

https://go.hyper.ai/nexNc

Architecture du modèle : Découverte de réactions chimiques inconnues à partir de recherches de distribution isotopique

MEDUSA Search est un moteur d'analyse de données de spectrométrie de masse basé sur l'apprentissage automatique qui peut être utilisé pour découvrir des réactions chimiques inconnues à partir de données de spectrométrie de masse massives.

Plus précisément, le processus de recherche développé dans MEDUSA Search se compose de 5 étapes.

d'abord,MEDUSA Search prend en entrée la formule moléculaire et la charge de l'ion recherché.Ces formules ou charges peuvent être dérivées du système réactionnel à l’aide d’une approche de génération d’hypothèses ou peuvent être définies manuellement (comme illustré dans la figure A ci-dessous). Le moteur de recherche recherche ensuite tous les fichiers spectraux contenant les deux pics isotopologiques les plus abondants de l'ion d'entrée, comme illustré dans la figure B ci-dessous. Les pics isotopologiques sont représentés par leur rapport masse/charge m/z. Ces fichiers spectraux sont appelés candidats, et les chercheurs ont également effectué des calculs de seuil de distance cosinus sur les fichiers spectraux, comme illustré dans la figure C1 ci-dessous. Ensuite, tous les spectres de masse candidats sont soumis à un algorithme qui recherche les distributions isotopiques dans un seul spectre selon une formule d’entrée, comme illustré dans la figure C2 ci-dessous.

Organigramme du moteur de recherche

Avant de faire une recherche, les chercheurs devraientGénérer une liste de voies de réaction hypothétiques en fonction des connaissances préalables du système réactionnel(Comme le montre la figure A). Ce système est conçu autour de liaisons cassables et de recombinaison des fragments correspondants. En saisissant des informations sur la formule chimique et la charge, le « modèle isotopique » théorique de l'ion peut être calculé. Recherchez dans l'index inversé les deux pics isotopologiques les plus abondants (Figure B). Les spectres de masse contenant ces pics sont appelés candidats. Après la recherche de spectre grossier, chaque spectre candidat est recherché pour la distribution isotopique de l'ion recherché.Il y a 3 étapes à suivre :

Estimation du seuil initial de présence d'ions :La distance cosinus renvoyée par l'algorithme de recherche de distribution isotopique dans un spectre est utilisée comme mesure de similarité entre les distributions isotopiques théoriques et correspondantes. La détermination automatique de la présence ou de l'absence d'un ion dans un spectre dépend de la distance cosinus maximale estimée (c'est-à-dire du seuil de présence d'ions). Sur la base d’un modèle de régression d’apprentissage automatique (Figure C1), le seuil de présence d’ions est déterminé à l’aide de la formule d’ions d’entrée.

*  Recherche de la distribution isotopique dans un spectre :L'algorithme de recherche de distribution isotopique intraspectrale (Figure C2) fait correspondre les pics du spectre de masse candidat expérimental avec les pics de la distribution isotopique théorique ; à chaque étape, la distance cosinus est calculée pour sélectionner le pic le plus similaire. Si aucun pic n'est trouvé, il est remplacé par un pic d'intensité égale à la médiane du bruit. Si la distance cosinus finale est inférieure au seuil de présence d'ions estimé à l'étape (comme indiqué dans la figure C1), l'ion est considéré comme trouvé.

Filtrer les correspondances faussement positives :Un classificateur d’apprentissage automatique supplémentaire (Figure C3) a été utilisé pour détecter la présence d’ions faussement positifs en utilisant des informations sur les pics voisins. Ce problème se manifeste généralement par la recherche d’une distribution faisant partie d’une autre distribution. L’un des exemples les plus marquants commence par M+1, alors que M existe également.

Conclusion expérimentale : Les expériences de couplage hétérocyclique-vinyle mettent en évidence les capacités de détection du modèle

Les 520 ions générés ont été recherchés dans l'ensemble de la base de données Terascale HRMS avec un temps de calcul total de 3 à 4 jours (8 à 11 min par ion).  Les résultats expérimentaux montrent que MEDUSA Search détecte plusieurs modèles de distribution isotopique.

La formation de produits de conversion catalytique est étroitement liée au mécanisme de réaction correspondant.Plusieurs réactions de Mizoroki-Heck et de couplage croisé (telles que Sonogashira, Suzuki, Buchwald-Hartwig, etc.) ont été précédemment réalisées en utilisant des complexes Pd/NHC avec différents ligands NHC et substituants halogènes comme composants catalytiques. Lors de l'étude du mécanisme de réaction par spectroscopie ESI-MS du mélange réactionnel, les produits de couplage [NHC-H]⁺, [NHC-Ph]⁺, [NHC-O]⁺ et [NHC-N]⁺ ont été trouvés. Sur la base de ces observations,Les rôles clés du couplage R-NHC et du clivage de la liaison M-NHC dans l'évolution des complexes M/NHC dans des conditions de réaction catalytique ont été révélés.La formation de catalyseurs moléculaires M/NHC catalytiquement actifs et de catalyseurs de type cocktail « sans NHC » est décrite du point de vue du nombre de réactions de couplage CC, y compris la formation de couplages de sel H-NHC et O-NHC.

Dans la réaction de Sonogashira, un produit de couplage éthynyl-NHC jusqu'alors inconnu a été isolé et une voie de réaction possible a été décrite. Les produits de couplage éthynyl-NHC sont hautement réactifs et peuvent subir diverses transformations. Les dérivés hydrogénés des produits ont été analysés en utilisant la méthode décrite.Le spectre ESI-MS du mélange réactionnel de Sonogashira a montré la présence du produit [NHC-(CH₂)₂-Ph]⁺.Comme indiqué ci-dessous. On suppose que ce processus se produit via une réaction d’hydrogénation par transfert.

MEDUSA Search enregistre les ions H-NHC et Ph-NHC bien connus, ainsi que l'ion [NHC-éthynyl]⁺ nouvellement découvert dans le mélange réactionnel de Sonogashira catalysé par Pd/NHC. Le processus de recherche basé sur les isotopes permet la détection de produits éthyl-NHC jusqu'alors inconnus

Sous la catalyse du complexe Pd/NHC [BIMePh]⁺ [BIMePdI₃]⁻,L'analyse par spectrométrie de masse du mélange réactionnel de Mizoroki-Heck entre le p-méthoxyiodobenzène et l'acrylate de butyle a révélé la formation de [BIMe (CH)₂COOBu]⁺.La formule moléculaire a été confirmée par spectrométrie de masse à ultra haute résolution. Des expériences impliquant la formation de [IPrCHC(Ph)COOBu]⁺ ont été utilisées pour distinguer la catalyse homogène et hétérogène par le mercure. En excluant l’interférence du mercure sur les espèces de réaction et en gardant les autres conditions identiques à celles de l’expérience originale. La formule moléculaire a également été confirmée par spectrométrie de masse à ultra-haute résolution, et la structure chimique a été vérifiée par des expériences MS/MS.

L'ESI-HRMS a confirmé la formation de l'ion [BIMe(CH)₂COOBu]⁺
L'ESI-HRMS a confirmé la formation de l'ion [IPrCHC(Ph)COOBu]⁺
Spectre MS/MS de l'ion [IPrCHC(Ph)COOBu]⁺

Des expériences ont été réalisées en utilisant 5 ligands NHC différents. La possibilité d'un couplage vinyle-NHC lors de la transformation Pd/NHC sous la réaction de Mizoroki-Heck a été testée. Des produits vinyle-NHC ont été trouvés dans tous les cas étudiés, indépendamment des ligands dans les complexes, et tous les produits ont été définis avec un minimum d'erreurs. Pour les mélanges réactionnels étudiés, tels que (BIMe)PdI₂Py, (SIMes)PdCl(allyl) et (PIPr)PdCl(allyl),En plus du vinyle-NHC, l'éthyl-NHC a également été détecté.Les erreurs m/z des complexes (IMes)PdCl(allyl) et (SIPr)PdCl(allyl) sont très faibles, inférieures à 0,3 ppm, tandis que les erreurs sont inférieures à 1 ppm. Dans toutes les expériences MS, la configuration a été définie pour empêcher les transitions de se produire pendant l'enregistrement des spectres de masse. Une surveillance de la réaction ESI-MS par perfusion d'échantillons sous pression a également été réalisée pour le processus de couplage vinyle-NHC en question afin de confirmer que les ions pouvaient être observés dans plusieurs modes de collecte de données de réaction.

Il a été démontré que ce moteur de calcul robuste de découverte de réactions basé sur l’apprentissage automatique est capable d’utiliser des ions de diverses compositions.Les recherches d'ions peuvent être effectuées sur tous les instruments MS à des résolutions suffisantes pour observer les distributions isotopiques.La combinaison du système développé avec d’autres techniques informatiques (par exemple, des algorithmes de prédiction de fragments d’ions par formule structurale ou séquence peptidique, différents calculateurs d’adduits) pourrait devenir un outil analytique puissant pour un criblage complet, essentiel pour accélérer les découvertes dans divers domaines scientifiques.

aussi,Cette méthode met également en œuvre le concept de recherche « Expérimentation dans le passé ».Il exploite pleinement la valeur des données existantes, découvre de nouvelles voies de réaction et de nouveaux produits, économise les ressources de recherche, fournit de nouvelles idées et méthodes pour la recherche chimique et favorise le développement du domaine de la chimie organique. En termes d'applications pratiques, il peut aider les sociétés pharmaceutiques, les sociétés de recherche et développement de matériaux, etc. à trouver plus rapidement de nouvelles voies de réaction et de nouveaux produits, à réduire les coûts de recherche et développement, à améliorer l'efficacité de la recherche et du développement et à fournir un outil d'analyse puissant pour la recherche chimique.

L'analyse automatisée des données de spectrométrie de masse entre dans le domaine clinique

Avec l'approfondissement continu de la technologie de spectrométrie de masse dans la recherche scientifique et la production industrielle, la technologie d'automatisation a commencé à évoluer vers une application clinique. En tant que composant important de la technologie de diagnostic de précision, la spectrométrie de masse clinique peut permettre une automatisation complète de la collecte, du traitement et de la séparation des échantillons jusqu'à l'analyse. Selon la 17e édition du Global IVD Industry Report récemment publiée par les États-Unis, la taille du marché de l'industrie mondiale de la spectrométrie de masse clinique sera de 930 millions de dollars américains en 2024.On s’attend à ce qu’il atteigne 1,435 milliard de dollars en 2029. De 2024 à 2029, le marché de la spectrométrie de masse clinique devrait croître à un taux annuel moyen de 9%, devenant ainsi le segment de marché à la croissance la plus rapide dans le domaine du DIV après les tests d'acide nucléique.
* Les DIV (produits de diagnostic in vitro) désignent les dispositifs médicaux, les réactifs de diagnostic in vitro et les médicaments.

En regardant le marché chinois,L'industrie de la spectrométrie de masse clinique est depuis longtemps entrée dans la voie rapide du développement, avec des progrès significatifs dans la spectrométrie de masse multi-omique, les spectromètres de masse domestiques et la spectrométrie de masse automatisée.Selon le « Rapport de recherche sur l'industrie de la spectrométrie de masse clinique 2024 », au 31 juillet 2024, à l'exclusion des produits de contrôle qualité et des produits d'étalonnage, un total de 228 produits nationaux de spectrométrie de masse clinique ont été approuvés par la NMPA.

En termes de types de réactifs approuvés, le nombre d'instruments de spectrométrie de masse clinique produits localement et approuvés en Chine a continué de croître au cours des cinq dernières années, et il n'y a eu aucun signe de ralentissement du taux de croissance. Au 31 juillet 2024, 51 réactifs ont été approuvés pour les tests de vitamines, 46 réactifs ont été approuvés pour la surveillance de la concentration de médicaments et 45 réactifs ont été approuvés pour les maladies chroniques et les hormones. De 2020 à 2023, il y aura respectivement 10, 12, 13 et 16 modèles.

Parmi les instruments approuvés, les instruments de chromatographie liquide-spectrométrie de masse (LC-MS) sont majoritaires, avec un total de 33 appareils LC-MS de fabrication chinoise approuvés. Le deuxième groupe le plus important est celui des appareils de spectrométrie de masse à temps de vol et désorption laser assistée par matrice (MALDI-TOF MS), avec un total de 25 modèles approuvés pour une utilisation dans la détection microbienne, la détection d'acides nucléiques et la détection de peptides.

* La chromatographie liquide-spectrométrie de masse est une technique de chimie analytique qui combine les capacités de séparation physique de la chromatographie liquide (LC) avec les capacités d'analyse de masse de la spectrométrie de masse (MS). 

* La spectrométrie de masse à temps de vol par désorption laser assistée par matrice (MALDI-TOF MS) est un nouveau type de spectrométrie de biomasse à ionisation douce développée ces dernières années et largement utilisée pour identifier un grand nombre de bactéries et de champignons.

À l’heure actuelle, l’application clinique de la LC-MS en Chine est réalisée depuis relativement peu de temps et en est encore à ses balbutiements. Il existe encore de nombreuses lacunes. De nombreux facteurs tels que les fabricants de DIV, les laboratoires d’essais médicaux, le personnel professionnel et technique, les services de gestion et les politiques peuvent affecter l’application de la technologie de détection par spectrométrie de masse clinique. Toutefois, si l’on se tourne vers l’avenir, la combinaison de l’automatisation et de l’intelligence constituera certainement une direction de développement importante. L’application clinique de la LC-MS/MS continuera de se développer et, tout en améliorant l’efficacité et la précision de la détection, elle aidera davantage les médecins à interpréter les résultats et à contribuer à la prise de décision clinique.

Références :
1.https://mp.weixin.qq.com/s/27drrM5lwawHRgRMWvHZRQ
2.https://mp.weixin.qq.com/s/pkd2I573on08syPkqdStOQ