Von 9.874 Veröffentlichungen Bis Hin Zu 15.000 Kristallstrukturen Rekonstruiert MOF-ChemUnity Das Umfassende Wissen Über MOFs Und Führt Die Materialforschung in Das Zeitalter Der „interpretierbaren KI“.

In der Materialwissenschaft gelten metallorganische Gerüstverbindungen (MOFs) als wahre Alleskönner: Sie zeichnen sich durch eine hohe spezifische Oberfläche, chemische Modifizierbarkeit und strukturelle Vielfalt aus und finden breite Anwendung in der Gastrennung und -speicherung, der Katalyse und der Sensorik. Die Welt der MOFs ist jedoch für Forscher extrem umfangreich und komplex – bisher wurden über 125.000 MOF-Gerüste synthetisiert und Millionen möglicher Strukturen berechnet und vorhergesagt.
Obwohl künstliche Intelligenz (KI) das Forschungsgebiet der Metallorganischen Fasern (MOF) grundlegend verändert hat,Die meisten bestehenden Methoden sind jedoch nach wie vor in ihrem Umfang begrenzt und konzentrieren sich hauptsächlich auf die Extraktion einzelner Leistungsdaten oder statischer Datensätze, die nicht ohne Weiteres skalierbar sind.Selbst bei umfangreichen Text-Mining-Datensätzen liegt der Schwerpunkt eher auf der Extraktion von Leistungsdaten aus der Literatur als auf der Herstellung robuster Assoziationen mit Kristallstrukturen. Ein wesentliches Hindernis für die Erreichung dieser Einheitlichkeit ist das Fehlen standardisierter Namenskonventionen – beispielsweise kann dieselbe Verbindung in der Literatur als „HKUST-1“, in einem Artikel als „Verbindung 1“ und in der Cambridge Structure Database (CSD) als „FIQCEN“ bezeichnet werden. Diese Inkonsistenz besteht nicht nur bei MOFs, sondern ist in der gesamten Materialwissenschaft weit verbreitet und erschwert es sowohl Menschen als auch großen Sprachmodellen (LLMs), Daten aus verschiedenen Quellen zuzuordnen.
Vor diesem HintergrundEin Forschungsteam der Universität Toronto und des Clean Energy Innovation Research Centre des National Research Council of Canada hat MOF-ChemUnity vorgeschlagen: einen strukturierten, skalierbaren und erweiterbaren Wissensgraphen.Diese Methode nutzt LLM, um eine zuverlässige Eins-zu-eins-Zuordnung zwischen MOF-Namen und ihren Synonymen in der Literatur sowie in der CSD registrierten Kristallstrukturen herzustellen. Dadurch wird eine eindeutige Unterscheidung zwischen MOF-Namen, ihren Synonymen und Kristallstrukturen erreicht. In der aktuellen Version integriert MOF-ChemUnity ca. 10.000 wissenschaftliche Artikel und über 15.000 CSD-Kristallstrukturen sowie deren berechnete chemische Eigenschaften in einem maschinenlesbaren Format. Als Wissensquelle zur Erweiterung von LLM ermöglicht MOF-ChemUnity KI-Assistenten, auf Basis umfassender Literaturkenntnisse Schlussfolgerungen zu ziehen.Expertenbewertungen zeigen, dass seine Genauigkeit, Interpretierbarkeit und Zuverlässigkeit dem Standard-LLM bei Aufgaben wie dem Abruf von Informationen, dem Schlussfolgern von Struktur-Eigenschafts-Beziehungen und der Materialempfehlung überlegen sind.
Die zugehörigen Forschungsergebnisse mit dem Titel „MOF-ChemUnity: Literature-Informed Large Language Models for Metal–Organic Framework Research“ wurden in ACS Publications veröffentlicht.
Forschungshighlights:
* MOF-ChemUnity ermöglicht die übergreifende Integration und Analyse von Publikationsinformationen, indem alle Bezeichnungen und Namen einer einzigen Materialeinheit zugeordnet und verknüpft werden.
* Diese Struktur erlaubt es Forschern, anspruchsvolle wissenschaftliche Fragen zu stellen, und ermöglicht es KI-Modellen, den chemischen Raum der MOFs auf einer faktischen und interpretierbaren Basis zu analysieren. Dadurch eröffnen sich neue Wege der Auseinandersetzung mit der Fachliteratur, die über das Lesen eines einzelnen Artikels oder die manuelle Datenerfassung hinausgehen.
Für Bereiche, die mit ähnlichen Problemen wie MOF konfrontiert sind, wie etwa dem Fehlen standardisierter Namenskonventionen und der Heterogenität der Daten, bietet MOF-ChemUnity eine leistungsstarke Blaupause für einheitliche Informationen.

Papieradresse:
https://pubs.acs.org/doi/10.1021/jacs.5c11789
Folgen Sie unserem offiziellen WeChat-Konto und antworten Sie im Hintergrund mit „MOF-ChemUnit“, um das vollständige PDF zu erhalten.
Weitere Artikel zu den Grenzen der KI:
https://hyper.ai/papers
Datensätze: Bereitstellung einer umfassenden Datenperspektive
Die Datengrundlage von MOF-ChemUnity bilden zwei Hauptdatenbanken:CoRE MOF 2019 und QMOF, insgesamt mehr als 31.000 einzigartige Kristallstrukturen.Um die Zuverlässigkeit der Daten zu gewährleisten, behielt das Forschungsteam nur Einträge mit Informationen zur Gasadsorption oder Bandstruktur bei und benötigte CSD-Referenzcodes (Cambridge Structural Database), um die ursprüngliche Literatur wiederfinden zu können.
Mithilfe von Text-Mining- und Data-Mining-Methoden (TDM) erhielten die Forscher Volltextartikel von verschiedenen Verlagen, darunter ACS, Elsevier und RSC. Unabhängig davon, ob die Dokumente im XML- oder PDF-Format vorlagen, wurden sie in standardisierte Markdown-Dateien konvertiert, um eine effiziente Verarbeitung durch nachfolgende KI-Modelle zu gewährleisten.
Nach Anwendung des Matching-Workflows konnte das Team 15.143 MOF-Kristallstrukturen von 93% erfolgreich auflösen und zuordnen und Entsprechungen zu Namen und Synonymen in 9.874 Publikationen herstellen. Noch wichtiger ist,Das Forschungsteam ordnete nicht nur MOF-Namen Kristallstrukturen zu, sondern identifizierte auch referenzielle Informationen in der Literatur (z. B. „Verbindung 1“, die sich auf ein bestimmtes MOF bezieht), um sicherzustellen, dass jede MOF-Entität einen entsprechenden Eintrag im Wissensgraphen bildet und somit eine solide Grundlage für das nachfolgende Modelltraining und die Informationsgewinnung geschaffen wird.
Darauf aufbauend extrahierte das Forschungsteam auch die experimentellen Eigenschaften, Synthesewege und empfohlenen Anwendungen von MOFs und schuf so eine strukturierte Fundgrube mit mehr als 70.000 Eigenschaftsdatenpunkten und mehr als 2.500 Anwendungsvorschlägen, die Wissenschaftlern eine umfassende Datenperspektive bietet.
ChemUnity: Ein strukturierter, skalierbarer und erweiterbarer Wissensgraph
In MOF-ChemUnity ist der Kern ein Modellframework, bestehend aus LLM-Matching- und Extraktionsagenten und einem Wissensgraphen:

Der erste Teil des Arbeitsablaufs zielt darauf ab, die Probleme der Erkennung benannter Entitäten, der referenziellen Auflösung und der eindeutigen Entitätszuordnung in MOF zu lösen.Die Lösung der Forscher bestand darin, LLM Informationen aus der Kristallstruktur bereitzustellen und MOF-Namen in wissenschaftlichen Publikationen mit ihren entsprechenden CSD-Referenzcodes abzugleichen. Diese Informationen umfassten CSD-Referenzcodes, Gitterparameter, Metallknoten, Raumgruppen, Summenformeln, chemische Namen und bekannte Synonyme, die alle über die CSD-Python-API abgerufen wurden. LLM wurde angewiesen, die eindeutigen MOF-Namen in den Publikationen zu ermitteln, die den jeweiligen CSD-Referenzcodes entsprachen, um eine eindeutige Zuordnung zwischen CSD-Referenzcodes und MOF-Namen in jeder Publikation sicherzustellen. LLM musste außerdem alle mit dem jeweiligen MOF verknüpften Referenzen finden. Durch die Trennung der Aufgaben „MOF-Namensabgleich“ und „Referenzauflösung“ war eine präzisere Bewertung der Genauigkeit jedes einzelnen Schrittes möglich, wodurch eine verlässliche Grundlage für die nachfolgende Informationsgewinnung geschaffen wurde. (Siehe Abbildung unten.)

Workflow zur Informationsextraktion
Allgemeiner Arbeitsablauf:Die aus dem Matching-Workflow extrahierten MOF-Namen werden für die Informationsextraktionsintegration verwendet; bei dieser Integration erhalten mehrere Workflows MOF-Namen und extrahieren verschiedene damit verbundene Informationen, wie z. B. Eigenschaften, empfohlene Anwendungen und Syntheseinformationen.
Dedizierter Workflow:Bei komplexen Eigenschaften (wie z. B. der Wasserstabilität) wird die Chain of Verification (CoV)-Methode verwendet, um die Zuverlässigkeit der Extraktionsergebnisse zu gewährleisten und die Entstehung von KI-„Illusionen“ zu reduzieren.
Wissensgraph MOF-ChemUnity-Konstruktion
Bei der Entwicklung von MOF-ChemUnity konzentrierten sich die Forscher auf drei Hauptziele:Skalierbarkeit, Assoziativität und Abfragefähigkeit.
Erstens muss der Wissensgraph skalierbar und erweiterbar sein, um neue Daten nahtlos integrieren zu können, wenn Literatur und Datenbanken wachsen. Zweitens muss er die dokumentenübergreifende Entitätsauflösung unterstützen und so die korrekte Zuordnung mehrerer Zitate derselben Verbindung gewährleisten, unabhängig davon, ob diese aus verschiedenen Publikationen, Nomenklaturen oder Datenbanken stammen. Drittens sollte er sowohl lokale als auch globale Abfragen ermöglichen, um sowohl detaillierte Abfragen (z. B. zu den Synthesebedingungen eines einzelnen MOF) als auch umfassendere Analysen (z. B. zur Identifizierung von Struktur-Eigenschafts-Beziehungen in verschiedenen Anwendungsbereichen) zu ermöglichen.
Um diese Ziele zu erreichen,Das Forschungsteam entwarf ein Muster mit einzigartigen Knoten- und Beziehungstypen.Jedes MOF wird als MOF-Knoten dargestellt, wobei Publikationen, Syntheseschritte, Eigenschaften und Anwendungserwähnungen als unabhängige Knoten modelliert und durch semantische Beziehungen verbunden sind. Der generierte Wissensgraph umfasst über 40.000 Knoten und 3.200.000 Beziehungen. Das vollständige Schema, der vollständige Wissensgraph und die einzelnen MOF-Teilgraphen sind in der folgenden Abbildung dargestellt:

Graphgestützte Suche und Generierung (Graph-Enhanced RAG)
Das graphenbasierte RAG-System extrahiert relevante Informationen und nutzt diese als Kontext für die Beantwortung allgemeiner Fragen. Das Framework integriert zudem maschinelles Lernen, um strukturell oder chemisch ähnliche MOFs zu identifizieren und so informativere Antworten zu ermöglichen.Die Kernkomponenten – das Abfragetool und das Nachbarfinder-Tool – sind modular aufgebaut und können vom KI-Agenten nach Bedarf aufgerufen werden.
MOF-Empfehlungen und Einbettungsraum
Mithilfe chemischer und geometrischer Deskriptoren (RAC, Porenvolumen, Porengröße usw.) werden MOFs in einen niedrigdimensionalen Einbettungsraum projiziert, und ähnliche Materialien werden mittels der Nearest-Neighbor-Methode empfohlen. Dies lässt sich auf Gasadsorption, CO₂-Abscheidung und weitere Anwendungsbereiche übertragen und wandelt menschliche Erfahrung in maschinenlernfähige Regeln um.
Ergebnispräsentation: Wissenschaftler und KI-Systeme können das gesamte Wissen über MOFs voll ausschöpfen.
Auf Basis des oben beschriebenen Rahmens führte das Forschungsteam eine Systemverifizierung und eine Anwendungsdemonstration durch:
Vorhersage der Wasserstabilität
Mithilfe des Datensatzes zur Wasserstabilität aus MOF-ChemUnity trainierten die Forscher ein Klassifikationsmodell, das bei der Vorhersage der Wasserstabilität hervorragende Ergebnisse erzielte und eine Genauigkeit von 80% sowie einen F1-Wert von 86% erreichte (siehe Abbildung unten). Da MOF-ChemUnity auch CO₂-Adsorptionsdaten aus Molekularsimulationen enthält, können die Forscher zudem ein gemeinsames Screening durchführen, um Materialien zu identifizieren, die beide Kriterien gleichzeitig erfüllen.

Expertenempfehlung und -verifizierung
Experten empfehlen MOFs häufig für spezifische Anwendungen basierend auf Intuition, Erfahrung oder Fachwissen. Obwohl diese Informationen an sich wertvoll sind, ist ihre Anwendung oft schwer zu formalisieren oder zu systematisieren. Um dieses Problem zu lösen, haben Forscher die Korrelation zwischen Expertenempfehlungen und Kristallstrukturen in MOF-ChemUnity genutzt, um MOFs in einen strukturorientierten chemischen Raum einzubetten.
Forscher evaluierten die Effektivität dieser Methode in zwei Anwendungsbereichen mit relevanten Rechendaten: Methanspeicherung und Kohlendioxidabscheidung. Wie die Abbildung unten zeigt, wiesen die benachbarten MOFs (als modellempfohlen gekennzeichnet) in beiden Anwendungsbereichen eine ähnliche Leistung wie die von Experten empfohlenen Materialien auf. Dies deutet darauf hin, dass…Sobald die Intuition von Experten auf den Strukturraum abgebildet ist, können Modelle des maschinellen Lernens aus dieser Intuition lernen und sie mit experimentellen Daten kombinieren, um Vorhersagen zu treffen.

Die Bewertung der Aussagekraft und Spezifität von Expertenempfehlungen ist ebenfalls aufschlussreich. Zu diesem Zweck verglichen die Forscher die Leistungsverteilung der von Experten empfohlenen MOFs mit der ihrer Nachbarmaterialien und mit zufällig aus der gesamten Datenbank ausgewählten Materialien. Bezüglich der Methanspeicherung war die durchschnittliche CH4-Adsorptionskapazität der von Experten empfohlenen MOFs und ihrer Nachbarmaterialien signifikant höher als der Durchschnitt des gesamten Datensatzes. Dies deutet darauf hin, dass die Experten Materialien mit exzellenter Methanspeicherleistung effektiv ausgewählt haben. Dies deckt sich mit früheren Forschungsergebnissen, die nahelegen, dass die Methanspeicherung primär von intuitiven geometrischen Eigenschaften wie Porosität und effektiver Kapazität unter Druckwechselbedingungen beeinflusst wird.
Im Gegensatz dazu ist bei der Kohlendioxidabscheidung die Leistungsverteilung der von Experten empfohlenen MOFs ähnlich der von Zufallsstichproben, was darauf hindeutet, dass die Intuition von Experten in diesem Bereich weniger zuverlässig ist.
Dokumenten-KI-Assistent-Anwendung
Banerjee et al. synthetisierten ein Lithium-basiertes MOF namens Ultralight MOF (ULMOF-5), das sie in ihrer Arbeit als „Verbindung 1“ bezeichneten.Bei der Abfrage der Wasserstabilität von ULMOF-5 mithilfe des Standard-LLM-Modells liefert dieses eine irreführende Antwort, da es ULMOF-5 mit dem ähnlich benannten, aber nicht verwandten Zn-basierten MOF-5 verwechselt. Im Gegensatz dazu ordnet MOF-ChemUnity alle Referenzen der korrekten Kristallstruktur zu und erfasst die im Artikel angegebene Kennzeichnung der Wasserstabilität („instabil“), die auf die Aussage „Verbindung 1 ist wasserlöslich“ hinweist. Das in dieser Studie vorgestellte System kann diese Information abrufen und eine fundierte Antwort mit Zitaten und Erläuterungen liefern, wodurch Genauigkeit und Transparenz verbessert werden.
Zur weiteren Evaluierung des Systems verglichen die Forscher die Antworten des graphenbasierten RAG und des ursprünglichen LLM (GPT-4o) in drei Aufgaben: Faktenrecherche, Struktur-Eigenschafts-Ableitung und Materialempfehlung. Neun MOF-Experten bewerteten die Qualität und Glaubwürdigkeit der Antworten in einer verblindeten Umfrage. Abbildung c zeigt, dass der graphenbasierte Assistent in allen Aufgaben besser abschnitt. Die Experten legten besonderen Wert auf zitierte Literatur, konkrete Beispiele und überprüfbare Aussagen, während die Antworten des Basismodells oft allgemein, unbegründet oder nicht überprüfbar waren. Dies deutet darauf hin, dass die Integration strukturierten wissenschaftlichen Wissens in LLM die faktische Zuverlässigkeit und das Vertrauen der Nutzer verbessern kann.

MOF-ChemUnity kann auf andere Materialkategorien erweitert werden.
Die Bedeutung von MOF-ChemUnity reicht weit über die bestehende Integration von MOF-Daten hinaus; es bietet ein interdisziplinäres und skalierbares Paradigma für Datenmanagement und -analyse in der Materialforschung. In den letzten Jahren hat die rasante Entwicklung der Forschung zu kovalenten organischen Gerüsten, Zeolithen, Polymeren und porösen Materialien zu einer hohen Heterogenität und uneinheitlichen Nomenklatur verschiedener Materialdaten geführt. Dies macht die Integration von Informationen aus verschiedenen Dokumenten und Datenbanken zu einem Engpass, der den wissenschaftlichen Fortschritt behindert. Vor diesem Hintergrund bietet das von MOF-ChemUnity etablierte Wissensgraphen-Framework einen Leitfaden für diese Materialkategorien.Durch die Verwendung einheitlicher Methoden zur Entitätsanalyse, Kernbeziehungsannotation und Attributextraktion kann eine effektive Verknüpfung und systematische Verwaltung von Daten aus verschiedenen Quellen auch in Bereichen ohne standardisierte Benennung oder mit erheblichen Unterschieden in den Datenformaten erreicht werden.
Viele Teams in der Branche arbeiten ebenfalls an ähnlichen Projekten.Beispielsweise existiert eine Fülle wissenschaftlicher Erkenntnisse, die in der umfangreichen Fachliteratur zur Materialwissenschaft zusammengetragen wurden. Das in diesen Dokumenten verstreute wissenschaftliche Wissen wird jedoch typischerweise manuell von Forschern gesammelt und analysiert – ein Prozess, der oft zeitaufwändig ist und die Vollständigkeit der Informationen nicht immer gewährleistet. Werden die materialwissenschaftlichen Informationen in diesen Dokumenten als strukturiertes Wissen dargestellt und anschließend mithilfe von Methoden wie Wissensassoziation, -fusion und logischem Schließen zu einem Wissensgraphen für Materialien kombiniert, können Forscher Informationen präzise und effizient gewinnen.
Die Forschungsgruppe von Professor Pan Feng an der School of New Materials der Peking University Shenzhen Graduate School widmet sich seit einigen Jahren dem Aufbau von Materialwissensgraphen und der Lösung zentraler wissenschaftlicher und technischer Herausforderungen. Sie entwickelte ein hochpräzises und effizientes Framework zur namensbasierten Disambiguierung und Informationssuche und erstellte darauf aufbauend einen Materialwissensgraphen namens MatKG. Darauf aufbauend schlug die Gruppe 2022 ein semantisches Repräsentationsframework vor, das die Einbettung materialwissenschaftlichen Wissens ermöglicht. Dieses Framework verbessert die Repräsentationsqualität von Materialentitäten durch die Fusion von Informationen aus verschiedenen Quellen und erlaubt so das präzise Extrahieren von Entitäten aus Lithium-Ionen-Batteriekathodenmaterialien aus der materialwissenschaftlichen Literatur sowie den Aufbau eines Kathodenmaterialwissensgraphen zur Vorhersage von Hochleistungsmaterialien für Lithiumbatterien.
Titel des Papiers:Automatisierung der Materialerkundung mit einem semantischen Wissensgraphen für Lithium-Ionen-Batteriekathoden
Papieradresse:https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437
Andererseits ermöglicht die Einführung standardisierter Formate wie der IUPAC Adsorption Information File (AIF) die nahtlose Integration neuer Standards und gewährleistet so Datenvereinheitlichung, Rückverfolgbarkeit und Interpretierbarkeit. Dadurch lassen sich sowohl neue Literaturberichte als auch Simulationsdaten problemlos in das System einbinden, was eine kontinuierliche Erweiterung und iterative Aktualisierung des Datensatzes ermöglicht. Diese nachhaltige Aktualisierungsfähigkeit bildet eine solide Grundlage für das Hochdurchsatz-Screening von Materialien mit mehreren Zielstrukturen, entspricht aktuellen Trends in der Materialgenomforschung und den FAIR-Datenprinzipien und bietet Forschern einen reproduzierbaren und verifizierbaren analytischen Rahmen.
Zukünftig liegt das Potenzial von MOF-ChemUnity auch in seiner Fähigkeit, als wissenschaftliches Assistenzsystem zu fungieren. Mithilfe von natürlicher Sprachinteraktion und Graphabfragetools können Forschende komplexe Fragen stellen, beispielsweise: „Welche MOFs eignen sich zur Schadstoffentfernung in aquatischen Umgebungen und weisen sowohl eine hohe Stabilität als auch spezifische Metallknoten auf?“ Das System liefert daraufhin verifizierbare Antworten auf Basis von Literatur-, experimentellen und computergestützten Daten. Dieser Ansatz, der Wissensgraphen und LLM integriert, setzt neue Maßstäbe für KI-Anwendungen in der Materialforschung.
Quellen:
1. https://pubs.acs.org/doi/10.1021/jacs.5c11789
2. https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437
3. https://news.pku.edu.cn/jxky/64f28e5b50074113bfaec41af68c1971.htm