Command Palette

Search for a command to run...

从 9,874 篇文献到 1.5 万晶体结构,MOF-ChemUnity 重构 MOF 全景知识,推动材料发现进入「可解释 AI」时代

Featured Image

在材料科学领域,金属有机框架(Metal–Organic Frameworks,MOFs)堪称科学家们的「瑞士军刀」:它们具有高比表面积、化学可调性和结构多样性,在气体分离与储存、催化以及传感等领域具有广泛应用。然而,对于科研人员而言,MOF 的世界极其庞大且复杂——目前已有超过 12.5 万种 MOF 框架被合成,并计算预测了数百万种可能的结构。

虽然人工智能(AI)已经深刻改变了 MOFs 研究领域,但大多数现有方法仍然范围有限,主要关注单一性能的提取或不易扩展的静态数据集。即使是大规模文本挖掘数据集,也更强调从文献中提取性能,而非与晶体结构建立稳健的关联。实现这种统一的一个主要障碍是缺乏标准化命名约定——例如,同一化合物在文献中可能被称为「HKUST-1」,在某篇文章中标记为「Compound 1」,而在剑桥结构数据库(CSD)中被登记为「FIQCEN」。这种不一致不仅存在于 MOFs,而是普遍存在于材料科学领域,使人类和大语言模型(LLM)在跨来源匹配数据时面临困难。

以此为背景下,来自加拿大多伦多大学以及加拿大国家研究委员会清洁能源创新研究中心的研究团队提出 MOF-ChemUnity:一个结构化、可扩展、可拓展的知识图谱。该方法利用 LLM 在文献中 MOF 名称及其同指代与 CSD 中登记的晶体结构之间建立可靠的一一映射,从而实现 MOF 名称及其同义词与晶体结构的消歧。在当前版本中,MOF-ChemUnity 集成了约 1 万篇科学文章以及超过 1.5 万条 CSD 晶体结构及其计算化学性质,以机器可操作的格式呈现。当作为知识源增强 LLM 时,MOF-ChemUnity 使得 AI 助手能够基于完整文献知识开展推理。专家评估显示,在检索、结构–性能关系推断、材料推荐等任务中,其准确性、可解释性与可信度均优于标准 LLM 。

相关研究成果以「MOF-ChemUnity: Literature-Informed Large Language Models for Metal–Organic Framework Research」为题,已刊登 ACS Publications 。

研究亮点:

* MOF-ChemUnity 通过识别并将所有指代和名称链接到单一材料实体,实现了跨出版物的信息整合和分析。

* 这一结构允许研究者提出高层次科学问题,并使 AI 模型能够在有事实依据和可解释的基础上对 MOF 化学空间进行推理,从而开启超越单篇阅读或手动数据收集的新型文献交互方式。

* 对于面临与 MOF 类似问题的领域,如缺乏标准命名规范与数据异质性,MOF-ChemUnity 提供了统一信息的有力蓝图。

论文地址:

https://pubs.acs.org/doi/10.1021/jacs.5c11789
关注公众号,后台回复「MOF-ChemUnit」获取完整 PDF

更多 AI 前沿论文:
https://hyper.ai/papers

数据集:提供全面的数据视角

MOF-ChemUnity 的数据基础来源于两个主要数据库:CoRE MOF 2019 和 QMOF,总计超过 31,000 个独特晶体结构。为了确保数据可靠,研究团队仅保留了带有气体吸附或能带信息的条目,并且必须拥有 CSD(Cambridge Structural Database)参考代码,以便追踪到原始文献。

通过文本挖掘与数据挖掘(TDM)方法,研究人员从多个出版商获取全文,包括 ACS 、 Elsevier 、 RSC 等。无论是 XML 还是 PDF 格式的文献,都被转换为统一的 Markdown 文件,确保后续 AI 模型可以高效处理。

应用匹配工作流程后,该团队成功解析并关联了 93% 的 MOF 晶体结构,即 15,143 个晶体结构,与 9,874 篇文献中的名称及同指代信息建立了对应关系。更为关键的是,研究团队不仅匹配了 MOF 名称与晶体结构,还识别了文献中的指代信息(如「Compound 1」指代特定 MOF),确保每个 MOF 实体在知识图中形成一一对应的条目,为后续的模型训练和信息提取打下了坚实基础。

在此基础上,研究团队还将 MOF 的实验性质、合成路线及推荐应用提取出来,形成了一个包含 70,000 多条性质数据和 2,500 多条应用建议的结构化宝库,为科学家提供了全面的数据视角。

ChemUnity:结构化、可扩展、可拓展的知识图谱

在 MOF-ChemUnity 中,核心是一个由 LLM 匹配与提取代理和知识图谱组成的模型框架:

LLM 匹配代理

工作流的第一部分旨在解决 MOF 的命名实体识别、指代消解和唯一实体关联问题。研究人员的解决方案是向 LLM 提供晶体结构衍生信息,将论文中的 MOF 名称与对应的 CSD 参考代码匹配。这些信息包括 CSD 参考代码、晶格参数、金属节点、空间群、分子式、化学名称及已知同义词,均通过 CSD Python API 获取。 LLM 被指令查找论文中哪些唯一 MOF 名称对应给定的 CSD 参考代码,从而确保每篇论文中的 CSD 参考代码与 MOF 名称一一对应。 LLM 还需查找与该 MOF 相关的所有指代。通过将 MOF 名称匹配和指代消解任务分离,能够对每一步进行精细化准确性评估,为后续信息提取提供可靠基础。如下图所示:

用于匹配和提取 MOF 数据的 LLM 代理

信息提取工作流

通用工作流:由匹配工作流提取的 MOF 名称用于信息提取集成;在该集成中,多个工作流接收 MOF 名称并提取与其相关的不同信息,如性质、推荐应用和合成信息。

专用工作流:针对复杂性质(如水稳定性),采用验证链(Chain of Verification, CoV)方法,确保提取结果可靠,减少 AI「幻觉」产生。

知识图谱 MOF-ChemUnity 构建

在设计 MOF-ChemUnity 时,研究人员聚焦于 3 个关键目标:可扩展性、可关联性和可查询性。

首先,知识图谱必须可扩展且可追加,能够随着文献和计算数据库的增长无缝整合新数据;其次,它必须支持跨文档实体解析,确保对同一化合物的多重引用,无论来自不同论文、命名方式还是数据库,都能准确关联;第三,它应支持局部和全局查询,既能进行精细查询(如单一 MOF 的合成条件),也能进行更广泛的分析(如跨应用领域识别结构–性质趋势)。

为实现这些目标,研究团队设计了具有独特节点类型和关系类型的模式。每个 MOF 被表示为一个 MOF 节点,出版物、合成步骤、性质和应用提及被建模为独立节点,并通过语义关系连接。生成的知识图谱包含超过 40,000 个节点和 3,200,000 条关系。完整模式、完整知识图谱以及单个 MOF 子图如下图所示:

通过知识图谱构建异构 MOF 数据

图增强检索增强生成(Graph-Enhanced RAG)

图增强 RAG 系统检索相关信息,并将其作为少样本上下文用于通用问答。该框架还结合基于机器学习的嵌入来识别结构或化学上相似的 MOF,从而支持更有信息量的问答。核心组件——查询工具(Query)和邻近查找工具(Neighbor Finder)——是模块化的,可根据 AI 代理需要调用。

MOF 推荐与嵌入空间

使用化学与几何描述符(RAC 、孔体积、孔径等),将 MOF 投影到低维嵌入空间,通过最近邻方法推荐相似材料。可用于气体吸附、碳捕集等应用场景,将人工经验转化为可机器学习的规则。

成果展示:科学家和 AI 系统都能充分利用 MOF 的完整知识

通过上述框架,研究团队开展了系统验证与应用演示:

水稳定性预测

利用 MOF-ChemUnity 的水稳定性数据集,研究人员训练了一个分类器模型,在水稳定性预测中表现优异,准确率达到 80%,F1 分数为 86%(见下图)。更重要的是,由于 MOF-ChemUnity 还包含来自分子模拟的 CO₂ 吸附数据,研究人员可以进行联合筛选,识别同时满足这两个标准的材料。

利用机器学习预测 MOF 的水稳定性

专家推荐验证

专家通常会基于直觉、经验或领域知识,将其 MOF 推荐用于特定应用。尽管这些信息本身非常有价值,但往往难以形式化或系统化使用。为解决这一问题,研究人员利用 MOF-ChemUnity 中专家推荐与晶体结构之间的关联,将 MOF 嵌入到结构感知的化学空间。

研究人员评估了该方法在两个具有计算属性数据的应用上的有效性:甲烷存储和二氧化碳捕集。如下图所示,在这两类应用中,这些邻近 MOF(标记为模型推荐)表现出与专家推荐材料相似的性能。这表明,当专家直觉映射到结构空间后,机器学习模型能够学习其直觉并结合实验数据进行预测。

CoRE MOF 2019 数据库中所有材料的甲烷和二氧化碳吸收分布

评估专家推荐的强度和特异性同样具有启发意义。为此,研究人员还将专家推荐 MOF 的性能分布与其邻近材料以及从整个数据库中随机抽样的材料进行比较。对于甲烷存储,专家推荐及其邻近 MOF 的平均 CH4 吸附量明显高于整个数据集的平均值,说明专家有效地选择了甲烷存储性能优异的材料。这与之前的研究一致,即甲烷存储主要受直观几何属性(如空隙率和压力摆动工况下的有效容量)影响。

相比之下,对于二氧化碳捕集,专家推荐 MOF 的性能分布与随机样本相似,表明在这一领域,专家直觉的可靠性较低。

文献 AI 助手应用

Banerjee 等人合成了一种基于锂的 MOF,称为超轻 MOF(ULMOF-5),并在论文中将其称作「Compound 1」。当使用标准 LLM 查询 ULMOF-5 的水稳定性时,模型会给出「幻觉」回答,将其与名称相似但无关的 Zn 基 MOF-5 混淆。相比之下,MOF-ChemUnity 将所有指代与正确的晶体结构关联,并捕捉到论文中句子「compound 1 is soluble in water」所表明的水稳定性标签(「不稳定」)。本研究提出的系统能够检索此信息,并提供带有引用和解释的、事实依据充分的答案,从而提升准确性和透明度。

为了进一步评估系统,研究人员还在三个任务上对比了图增强 RAG 和原始 LLM(GPT-4o)的回答:事实检索、结构–性质推断和材料推荐。九位 MOF 专家在盲测调查中评估了回答的质量和可信度。下图 c 显示,图增强助手在所有任务中评分更高。专家特别重视其引用文献、具体示例和可验证的论断,而基线模型的回答常常泛泛、不具依据或无法验证。这表明,将结构化科学知识整合到 LLM 中可提升事实可靠性和用户信任。

基于知识图谱的 RAG 作为文献信息 AI 助手

MOF-ChemUnity 可扩展至其他材料类别

MOF-ChemUnity 的意义远超现有 MOF 数据整合,它为材料科学研究提供了一种跨领域、可扩展的数据管理和分析范式。近年来,随着共价有机框架、沸石、聚合物及多孔材料研究的快速发展,各类材料数据呈现高度异质性、命名不统一的问题,这使得跨文献、跨数据库的信息整合成为制约科学发现的瓶颈。在这一背景下,MOF-ChemUnity 所建立的知识图谱框架为这些材料类别提供了可借鉴的蓝图:通过统一实体解析、核心关系标注及属性抽取的方法,即便在缺乏标准化命名或数据格式差异较大的领域,也能够实现不同来源数据的有效关联和系统化管理。

业界也有许多团队在推进与之具有类似意义的工作。比如,大量的材料学术文献积累了丰富的科学成果,以文本形式散布在文献中的科学知识一般仍由研究人员手动收集和分析,这通常十分耗时且难以保证信息的完整度。如果将文献中的材料科学信息表示为结构化的知识,再结合知识关联、融合、推理等方法,构建材料知识图谱,可以使研究人员准确而又高效地获取信息。

北京大学深圳研究生院新材料学院潘锋教授课题组近年来致力于构建材料知识图谱以及解决其关键科学问题和技术难题,发展了一套高精度且高效的同名消歧以及信息搜索框架,构建了名为 MatKG 的材料知识图谱。在此基础上,2022 年,该课题组提出了一种可实现材料科学知识嵌入的语义表示框架,通过多源信息融合提高材料实体的表示质量以对材料科学文献中的锂离子电池正极材料实体进行精准挖掘并构建正极材料知识图谱,预测高性能锂电池材料。
论文标题:Automating Materials Exploration with a Semantic Knowledge Graph for Li-ion Battery Cathodes
论文地址:https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

另一方面,随着 IUPAC Adsorption Information File (AIF) 等标准化格式的提出,MOF-ChemUnity 的设计允许新标准的无缝接入,实现数据的统一、可追溯与可解释。通过这种方式,未来无论是新的文献报道还是计算模拟数据,都可以轻松纳入系统,实现数据集的持续扩展和迭代更新。这种可持续更新能力为高通量、多目标材料筛选提供了坚实基础,也顺应了当前材料基因组计划和 FAIR 数据原则的趋势,为科研人员提供了可重复、可验证的分析框架。

未来,MOF-ChemUnity 的潜力还体现在其作为科学助手的能力。通过自然语言交互和图查询工具,科研人员能够提出复杂问题,如「在水环境中适用于污染物去除的 MOF 中,哪些兼具高稳定性和特定金属节点?」,系统即可提供基于文献、实验与计算数据的可验证答案。这种融合了知识图和 LLM 的方法,为材料科学研究中的 AI 应用树立了新标杆。

参考文献:
1. https://pubs.acs.org/doi/10.1021/jacs.5c11789

2. https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

3. https://news.pku.edu.cn/jxky/64f28e5b50074113bfaec41af68c1971.htm

从 9,874 篇文献到 1.5 万晶体结构,MOF-ChemUnity 重构 MOF 全景知识,推动材料发现进入「可解释 AI」时代 | 资讯 | HyperAI超神经