Command Palette
Search for a command to run...
De 9 874 Articles À 15 000 Structures Cristallines, MOF-ChemUnity Reconstruit La Connaissance Panoramique Des MOF, Propulsant La Découverte De Matériaux Dans l'ère De « l'IA Interprétable ».

En science des matériaux, les réseaux métallo-organiques (MOF) sont considérés comme le « couteau suisse » des scientifiques : ils possèdent une surface spécifique élevée, une grande modularité chimique et une diversité structurale remarquable, et trouvent de nombreuses applications dans la séparation et le stockage des gaz, la catalyse et la détection. Cependant, pour les chercheurs, l’univers des MOF est extrêmement vaste et complexe : plus de 125 000 réseaux MOF ont été synthétisés à ce jour, et des millions de structures possibles ont été calculées et prédites.
Bien que l'intelligence artificielle (IA) ait profondément transformé le domaine de la recherche sur les MOF,Cependant, la plupart des méthodes existantes restent limitées dans leur portée, se concentrant principalement sur l'extraction d'ensembles de données statiques ou de performances uniques qui ne sont pas facilement extensibles.Même avec des ensembles de données d'exploration de textes à grande échelle, l'accent est davantage mis sur l'extraction des performances à partir de la littérature que sur l'établissement de liens robustes avec les structures cristallines. Un obstacle majeur à cette uniformité réside dans l'absence de conventions de dénomination standardisées : par exemple, un même composé peut être appelé « HKUST-1 » dans la littérature, désigné comme « Composé 1 » dans un autre article et enregistré sous le nom de « FIQCEN » dans la Cambridge Structure Database (CSD). Cette incohérence n'est pas propre aux MOF, mais est omniprésente en science des matériaux, ce qui complique la tâche des humains et des grands modèles de langage (LLM) pour la mise en correspondance des données provenant de différentes sources.
Dans ce contexte,Une équipe de recherche de l'Université de Toronto et du Centre de recherche sur l'innovation en matière d'énergie propre du Conseil national de recherches du Canada a proposé MOF-ChemUnity : un graphe de connaissances structuré, évolutif et extensible.Cette méthode utilise LLM pour établir une correspondance biunivoque fiable entre les noms des MOF et leurs synonymes dans la littérature et les structures cristallines enregistrées dans la CSD, permettant ainsi de lever l'ambiguïté entre les noms des MOF, leurs synonymes et les structures cristallines. Dans sa version actuelle, MOF-ChemUnity intègre environ 10 000 articles scientifiques et plus de 15 000 structures cristallines de la CSD, ainsi que leurs propriétés chimiques calculées, présentées dans un format exploitable par machine. Utilisé comme source de connaissances pour enrichir LLM, MOF-ChemUnity permet aux assistants IA de raisonner à partir d'une connaissance bibliographique exhaustive.Les évaluations d'experts montrent que sa précision, son interprétabilité et sa fiabilité sont supérieures à celles du LLM standard dans des tâches telles que la recherche, l'inférence des relations structure-propriété et la recommandation de matériaux.
Les résultats de recherche associés, intitulés « MOF-ChemUnity : Modèles de langage étendus basés sur la littérature pour la recherche sur les réseaux métallo-organiques », ont été publiés dans ACS Publications.
Points saillants de la recherche :
* MOF-ChemUnity permet l'intégration et l'analyse des informations issues de publications croisées en identifiant et en reliant toutes les désignations et tous les noms à une seule entité matérielle.
Cette structure permet aux chercheurs de poser des questions scientifiques de haut niveau et aux modèles d'IA de raisonner sur l'espace chimique des MOF de manière factuelle et interprétable, ouvrant ainsi de nouvelles voies d'interaction avec la littérature qui vont au-delà de la simple lecture d'un article ou de la collecte manuelle de données.
* Pour les domaines confrontés à des problèmes similaires à ceux des MOF, tels que le manque de conventions de dénomination standard et l'hétérogénéité des données, MOF-ChemUnity fournit un modèle puissant pour une information unifiée.

Adresse du document :
https://pubs.acs.org/doi/10.1021/jacs.5c11789
Suivez notre compte WeChat officiel et répondez « MOF-ChemUnit » en arrière-plan pour obtenir le PDF complet.
Autres articles sur les frontières de l'IA :
https://hyper.ai/papers
Ensembles de données : Fournir une perspective de données complète
Les données de MOF-ChemUnity proviennent de deux bases de données principales :CoRE MOF 2019 et QMOF, totalisant plus de 31 000 structures cristallines uniques.Pour garantir la fiabilité des données, l'équipe de recherche n'a conservé que les entrées contenant des informations sur l'adsorption de gaz ou la structure de bande et devait disposer de codes de référence CSD (Cambridge Structural Database) pour remonter à la littérature originale.
Grâce à des méthodes d'exploration de textes et de données (TDM), les chercheurs ont obtenu des articles en texte intégral provenant de plusieurs éditeurs, dont ACS, Elsevier et RSC. Que les documents soient au format XML ou PDF, ils ont été convertis en fichiers Markdown standardisés afin de garantir un traitement efficace par les modèles d'IA ultérieurs.
Après avoir appliqué le flux de travail de correspondance, l'équipe a réussi à résoudre et à associer 15 143 structures cristallines MOF de 93%, établissant des correspondances avec les noms et synonymes dans 9 874 publications. Plus important encore,L'équipe de recherche a non seulement fait correspondre les noms des MOF avec les structures cristallines, mais a également identifié des informations de référence dans la littérature (telles que « Composé 1 » faisant référence à un MOF spécifique), garantissant ainsi que chaque entité MOF forme une entrée correspondante un à un dans le graphe de connaissances, jetant ainsi les bases d'un entraînement de modèle et d'une extraction d'informations ultérieurs.
S’appuyant sur ces travaux, l’équipe de recherche a également extrait les propriétés expérimentales, les voies de synthèse et les applications recommandées des MOF, formant ainsi une véritable mine d’or structurée contenant plus de 70 000 points de données sur les propriétés et plus de 2 500 suggestions d’application, offrant aux scientifiques une perspective de données exhaustive.
ChemUnity : un graphe de connaissances structuré, évolutif et extensible
Dans MOF-ChemUnity, le noyau est un cadre de modélisation composé d'agents de correspondance et d'extraction LLM et d'un graphe de connaissances :

La première partie du flux de travail vise à traiter les problèmes de reconnaissance des entités nommées, de résolution référentielle et d'association unique des entités dans MOF.La solution proposée par les chercheurs consistait à fournir à LLM des informations issues de la structure cristalline, en associant les noms des MOF dans les articles à leurs codes de référence CSD correspondants. Ces informations comprenaient les codes de référence CSD, les paramètres de maille, les nœuds métalliques, les groupes d'espace, les formules moléculaires, les noms chimiques et les synonymes connus, tous obtenus via l'API Python de la CSD. LLM devait identifier, dans les articles, les noms de MOF uniques correspondant aux codes de référence CSD donnés, garantissant ainsi une correspondance univoque entre les codes de référence CSD et les noms de MOF dans chaque article. LLM devait également trouver toutes les références associées au MOF. En séparant les tâches d'association des noms de MOF et de résolution des références, une évaluation précise de la précision de chaque étape a été possible, fournissant une base fiable pour l'extraction d'informations ultérieure. (Voir figure ci-dessous.)

Flux de travail d'extraction d'informations
Flux de travail général :Les noms MOF extraits du flux de travail correspondant sont utilisés pour l'intégration de l'extraction d'informations ; dans cette intégration, plusieurs flux de travail reçoivent des noms MOF et extraient différentes informations qui leur sont associées, telles que les propriétés, les applications recommandées et les informations de synthèse.
Flux de travail dédié :Pour les propriétés complexes (telles que la stabilité de l'eau), la méthode de la chaîne de vérification (CoV) est utilisée pour garantir la fiabilité des résultats d'extraction et réduire la génération d'« illusions » de l'IA.
Construction du graphe de connaissances MOF-ChemUnity
Lors de la conception de MOF-ChemUnity, les chercheurs se sont concentrés sur trois objectifs clés :Évolutivité, associativité et capacité d'interrogation.
Premièrement, le graphe de connaissances doit être évolutif et extensible, capable d'intégrer facilement de nouvelles données à mesure que la littérature et les bases de données informatiques s'enrichissent. Deuxièmement, il doit prendre en charge la résolution d'entités inter-documents, garantissant ainsi l'association précise de multiples citations d'un même composé, qu'elles proviennent de publications, de nomenclatures ou de bases de données différentes. Troisièmement, il doit permettre des requêtes locales et globales, autorisant à la fois des requêtes précises (comme les conditions de synthèse d'un MOF spécifique) et des analyses plus larges (comme l'identification des tendances structure-propriétés dans différents domaines d'application).
Pour atteindre ces objectifs,L'équipe de recherche a conçu un modèle avec des types de nœuds et de relations uniques.Chaque MOF est représenté par un nœud MOF, les publications, les étapes de synthèse, les propriétés et les mentions d'application étant modélisées par des nœuds indépendants et reliées par des relations sémantiques. Le graphe de connaissances généré contient plus de 40 000 nœuds et 3 200 000 relations. Le schéma complet, le graphe de connaissances complet et les sous-graphes de chaque MOF sont présentés dans la figure suivante :

Recherche et génération améliorées par graphes (Graph-Enhanced RAG)
Le système RAG, enrichi par un graphe, extrait les informations pertinentes et les utilise comme contexte minimal pour répondre aux questions générales. Ce cadre intègre également des représentations vectorielles basées sur l'apprentissage automatique afin d'identifier les MOF structurellement ou chimiquement similaires, permettant ainsi des réponses plus informatives.Les composants principaux — l'outil de requête et l'outil de recherche de voisins — sont modulaires et peuvent être invoqués selon les besoins par l'agent d'IA.
Recommandations du MOF et espace d'intégration
À partir de descripteurs chimiques et géométriques (RAC, volume poreux, taille des pores, etc.), les MOF sont projetés dans un espace d'intégration de faible dimension, et des matériaux similaires sont recommandés par la méthode des plus proches voisins. Cette approche peut être appliquée à l'adsorption de gaz, à la capture du carbone et à d'autres domaines, transformant ainsi l'expérience humaine en règles compatibles avec l'apprentissage automatique.
Présentation des résultats : Les scientifiques et les systèmes d’IA peuvent pleinement exploiter les connaissances complètes sur les MOF.
En utilisant le cadre décrit ci-dessus, l'équipe de recherche a procédé à la vérification du système et à la démonstration de l'application :
prédiction de la stabilité de l'eau
À partir des données de stabilité de l'eau fournies par MOF-ChemUnity, des chercheurs ont entraîné un modèle de classification aux performances exceptionnelles pour la prédiction de cette stabilité, atteignant une précision de 80% et un score F1 de 86% (voir figure ci-dessous). De plus, MOF-ChemUnity incluant également des données d'adsorption de CO₂ issues de simulations moléculaires, les chercheurs peuvent effectuer un criblage conjoint afin d'identifier les matériaux répondant simultanément aux deux critères.

Recommandation et vérification d'experts
Les experts recommandent souvent les MOF pour des applications spécifiques en se basant sur leur intuition, leur expérience ou leur connaissance du domaine. Bien que cette information soit précieuse en soi, il est souvent difficile de formaliser ou de systématiser son utilisation. Pour pallier ce problème, les chercheurs ont exploité la corrélation entre les recommandations d'experts et les structures cristallines au sein de MOF-ChemUnity afin d'intégrer les MOF dans un espace chimique prenant en compte leur structure.
Des chercheurs ont évalué l'efficacité de cette méthode dans deux applications disposant de données pertinentes pour le calcul : le stockage du méthane et la capture du dioxyde de carbone. Comme le montre la figure ci-dessous, dans les deux applications, ces MOF voisins (qualifiés de recommandés par le modèle) ont présenté des performances similaires à celles des matériaux recommandés par les experts. Cela indique que…Une fois que l'intuition des experts est transposée dans l'espace structurel, les modèles d'apprentissage automatique peuvent s'appuyer sur cette intuition et la combiner avec des données expérimentales pour effectuer des prédictions.

L'évaluation de la pertinence et de la spécificité des recommandations d'experts est également instructive. À cette fin, des chercheurs ont comparé la distribution des performances des MOF recommandés par les experts avec celles de matériaux similaires et de matériaux sélectionnés aléatoirement dans l'ensemble de la base de données. Concernant le stockage du méthane, la capacité d'adsorption moyenne de CH₄ des MOF recommandés par les experts et de leurs matériaux similaires était significativement supérieure à la moyenne de l'ensemble des données, ce qui indique que les experts ont sélectionné efficacement des matériaux présentant d'excellentes performances de stockage du méthane. Ce résultat est cohérent avec des recherches antérieures, qui suggèrent que le stockage du méthane est principalement influencé par des propriétés géométriques intuitives telles que la porosité et la capacité effective sous conditions de variation de pression.
En revanche, pour la capture du dioxyde de carbone, la distribution des performances des MOF recommandés par les experts est similaire à celle d'échantillons aléatoires, ce qui indique que l'intuition des experts est moins fiable dans ce domaine.
Application d'assistant IA de documents
Banerjee et al. ont synthétisé un MOF à base de lithium appelé Ultralight MOF (ULMOF-5), qu'ils ont appelé « Composé 1 » dans leur article.Lorsqu'on interroge la stabilité à l'eau de l'ULMOF-5 à l'aide du modèle LLM standard, ce dernier fournit une réponse erronée, le confondant avec le MOF-5 à base de zinc, de nom similaire mais sans lien de parenté. À l'inverse, MOF-ChemUnity associe systématiquement toutes les références à la structure cristalline correcte et identifie l'instabilité de l'eau (« instable ») mentionnée dans l'article, indiquée par la phrase « le composé 1 est soluble dans l'eau ». Le système proposé dans cette étude permet de récupérer cette information et de fournir une réponse étayée par des citations et des explications, améliorant ainsi la précision et la transparence.
Pour évaluer plus en détail le système, les chercheurs ont comparé les réponses du RAG enrichi par un graphe et du LLM original (GPT-4o) sur trois tâches : la recherche de faits, l’inférence de la structure et des propriétés, et la recommandation de matériaux. Neuf experts en MOF ont évalué la qualité et la crédibilité des réponses dans le cadre d’une enquête à l’aveugle. La figure c ci-dessous montre que l’assistant enrichi par un graphe a obtenu de meilleurs résultats pour toutes les tâches. Les experts ont particulièrement insisté sur la pertinence des références bibliographiques, des exemples précis et des affirmations vérifiables, tandis que les réponses du modèle de base étaient souvent générales, non étayées ou invérifiables. Cela suggère que l’intégration de connaissances scientifiques structurées dans le LLM peut améliorer la fiabilité des faits et la confiance des utilisateurs.

MOF-ChemUnity peut être étendu à d'autres catégories de matériaux.
L'importance de MOF-ChemUnity dépasse largement le cadre de l'intégration des données MOF existantes ; ce projet offre un paradigme de gestion et d'analyse des données interdisciplinaire et évolutif pour la recherche en science des matériaux. Ces dernières années, le développement rapide de la recherche sur les réseaux organiques covalents, les zéolites, les polymères et les matériaux poreux a engendré une forte hétérogénéité et une nomenclature incohérente des données, faisant de l'intégration des informations entre documents et bases de données un frein majeur à la découverte scientifique. Dans ce contexte, le cadre de graphes de connaissances établi par MOF-ChemUnity fournit un modèle pour ces catégories de matériaux :En utilisant des méthodes unifiées d'analyse d'entités, d'annotation des relations fondamentales et d'extraction d'attributs, une association efficace et une gestion systématique des données provenant de différentes sources peuvent être réalisées même dans des domaines dépourvus de dénomination standardisée ou présentant des différences importantes dans les formats de données.
De nombreuses équipes du secteur travaillent également sur des projets similaires.Par exemple, une multitude de découvertes scientifiques ont été accumulées dans une vaste littérature académique sur la science des matériaux. Cependant, les connaissances scientifiques dispersées dans ces documents, sous forme textuelle, sont généralement collectées et analysées manuellement par les chercheurs, un processus souvent long et fastidieux qui peine à garantir l'exhaustivité des informations. Si les informations relatives à la science des matériaux contenues dans ces documents sont représentées sous forme de connaissances structurées, puis combinées par des méthodes telles que l'association, la fusion et le raisonnement des connaissances afin de construire un graphe de connaissances sur les matériaux, les chercheurs peuvent acquérir des informations avec précision et efficacité.
L'équipe de recherche du professeur Pan Feng, rattachée à l'École des nouveaux matériaux de l'Université de Pékin (campus de Shenzhen), se consacre depuis plusieurs années à la construction de graphes de connaissances sur les matériaux et à la résolution de défis scientifiques et techniques majeurs. Elle a développé un cadre précis et performant pour la désambiguïsation par nom et la recherche d'informations, aboutissant à la création d'un graphe de connaissances sur les matériaux appelé MatKG. Fort de ces travaux, le groupe a proposé en 2022 un cadre de représentation sémantique permettant l'intégration des connaissances en science des matériaux. Ce cadre améliore la qualité de la représentation des entités matérielles grâce à la fusion d'informations multi-sources, permettant ainsi une extraction précise des entités relatives aux matériaux de cathode des batteries lithium-ion à partir de la littérature scientifique et la construction d'un graphe de connaissances sur les matériaux de cathode afin de prédire les matériaux haute performance pour les batteries lithium.
Titre de l'article :Automatisation de l'exploration des matériaux grâce à un graphe de connaissances sémantique pour les cathodes de batteries Li-ion
Adresse du document :https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437
Par ailleurs, grâce à l'introduction de formats standardisés tels que le fichier d'information sur l'adsorption de l'IUPAC (AIF), la conception de MOF-ChemUnity permet une intégration transparente des nouvelles normes, garantissant ainsi l'unification, la traçabilité et l'interprétabilité des données. De cette manière, les nouvelles publications scientifiques et les données de simulation numérique peuvent être facilement intégrées au système, permettant une expansion continue et des mises à jour itératives de l'ensemble de données. Cette capacité de mise à jour durable constitue une base solide pour le criblage à haut débit de matériaux multi-cibles, s'inscrit dans les tendances actuelles des initiatives de génomique des matériaux et les principes FAIR, et offre aux chercheurs un cadre analytique reproductible et vérifiable.
À l'avenir, le potentiel de MOF-ChemUnity réside également dans sa capacité à servir d'assistant scientifique. Grâce à l'interaction en langage naturel et aux outils d'interrogation de graphes, les chercheurs peuvent poser des questions complexes, telles que : « Quels MOF, adaptés à l'élimination des polluants en milieu aquatique, possèdent à la fois une grande stabilité et des nœuds métalliques spécifiques ? », et le système peut fournir des réponses vérifiables fondées sur des données bibliographiques, expérimentales et computationnelles. Cette approche, qui intègre les graphes de connaissances et la modélisation linguistique, établit une nouvelle référence pour les applications d'IA dans la recherche en science des matériaux.
Références :
1. https://pubs.acs.org/doi/10.1021/jacs.5c11789
2. https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437
3. https://news.pku.edu.cn/jxky/64f28e5b50074113bfaec41af68c1971.htm