加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取

特色图像

日常生活中,「催化」是最为常见的化学反应之一。比如,酿酒酿醋的本质,就是粮食中的淀粉在微生物酶的催化作用下,转变成酒精和醋酸的过程。

用更为学术的说法——在化学反应里能改变反应物反应速率(既能提高也能降低)而不改变化学平衡,且本身的质量和化学性质在化学反应前后都没有发生改变的物质叫催化剂。

化学工业中,85% 以上的过程都依赖催化剂加快反应速率,设计新型高效催化剂对整个产业的重要意义不言而喻,其中,理解和确定最佳催化剂的过程中,有一个最具信息量的特征,即催化剂表面反应物的化学吸附能量 Eads 。化学反应内在十分复杂,这也使得明确决定 Eads  的关键物理量存在显著困难。

近日,上海交通大学密西根学院助理教授贺玉莲课题组,在国际综合性顶级期刊《美国国家科学院院刊》(Proceedings of the National Academy of Sciences of the United States of America, PNAS) 发表题为「Interpreting Chemisorption Strength with AutoML-based Feature Deletion Experiments」的研究论文。该研究针对确定决定 Eads  的关键物理量提出了一种新方法,即基于自动机器学习 (AutoML) 的特征删除实验,从高通量密度泛函理论 (density functional theory, DFT) 数据库中实现了知识的自动提取。

研究亮点:

* 基于自动机器学习 (AutoML) 的特征删除实验,从高通量密度泛函理论 (DFT) 数据库中实现了知识的自动提取

* 研究论证了在二元合金催化剂表面的吸附位点的局部几何信息,对化学吸附能量 Eads  的重要影响,展示了基于 AutoML 特征删除实验的稳定性、一致性和潜力

* 该研究成果在催化剂设计优化方面有着重要意义,并在方法学上产生重要的影响

论文地址:
https://www.pnas.org/doi/10.1073/pnas.2320232121 

关注公众号,后台回复「自动机器学习」获取完整 PDF

严谨科学的高质量数据集

本研究选择了一个高通量密度泛函理论计算的解离化学吸附能数据集作为基准。通过使用 Mamun 等人建议的相同 DFT 协议重现吸附能,从而验证数据质量。

该数据库包含 DFT 计算的二元合金表面上各种吸附物的 Eads  值,这些吸附物由 37 种不同金属元素组成。随后,研究人员从包含 88,587 个条目的数据集中精选出了涉及 10 余种吸附物的化学吸附反应,仅保留了 5 种双原子分子吸附剂 (H2 、 O2 、 N2 、 CO 和 NO),如下表,共计 8,418 个条目。

本文研究了双原子化学吸附反应

限制吸附剂为双原子分子,主要是为了减少由吸附剂结构引起的复杂性,并统一吸附剂描述,使机器学习模型能够专注于所涉及合金(即催化剂)的表面行为。

自动机器学习 (AutoML) 引导的知识提取方法

此前,研究人员倾向于使用机器学习 (ML) 方法,特别是可解释的人工智能 (XAI),以发现有关催化反应的新见解。然而,随着化学领域 AI 技术的快速发展,XAI 提供的模型和特定特征解释,可能难以满足化学研究人员所需的清晰度和确定性水平。因此,本研究提出了一种替代方案,即自动机器学习 (AutoML) 引导的知识提取方法,如下图:

研究概览

研究人员并没有深入研究机器学习算法的内部工作原理,而是将许多可比较的机器学习模型捆绑在一起进行集体分析。具体来说,研究人员基于一个简单而基本的原则建立物理见解——假设「临界」物理量应该显著影响物理模型的可预测性;因此,去掉这些量会降低模型的有效性,反之亦然。

第一步,构建并验证初始基准特征集 (Ftotal) 以确保其描述性,使用该特征集的模型应该表现出可接受的预测性能。


第二步,从 Ftotal 中删除内部相关的特征,以检查模型可预测性中的任何变化。

这种方法有 3 个好处:

1. 物理洞察力是通过比较不同特性集的性能来收集的,因此明确地纳入了物理考虑因素。通过精心设计的实验设置,可预测性的变化可以与物理假设联系起来;

2. 通过分析可比较模型的统计量以降低模型的随机性;

3. 这种方法避免了在知识提取过程中理解机器学习算法的详细数学结构,从而避免了模型复杂性和可解释性之间的权衡。

研究结果:吸附位点的局部几何信息是关键物理量

通过定制的基于 AutoML 的特征删除实验,本研究发现:对于二元合金催化剂表面,吸附位点的局部几何信息为决定 Eads 的关键物理量,而不是合金催化剂的本征电子或者物理化学性质。

具体而言,研究通过将特征删除实验,与基于神经网络的可解释人工智能 (XAI) 工具实例化变量选择 (INVASE) 相结合,总结出了预测 Eads  的最佳特征集,包含有 21 个固有的、非 DFT 计算的本征物理量 F21 。利用该特征集,在涉及 1,600 余种的合金表面约 8,400 个化学吸附反应中,实现了 0.23 eV 的平均绝对误差 (MAE) 。

下表显示了 F21 的详细信息,包括 1 个吸附剂特征、 3 个几何特征、 7 个物理化学特征和 10 个电子特征。

贪婪扫描中表现最好的特征集的细节

研究人员将经过验证的特征删除方法应用于 Ftotal,确定了 F21 的几何、物理化学和电子特征的相对重要性。结果如下图所示:从 F21 中删除电子特征导致 ΔMAE ≈ 0.04 eV,使得 MAE = 0.30 eV,与 Ftotal 相当。

F21 的详细分析

与 Ftotal 类似,尽管只选择了 3 个几何特征,但几何信息在 F21 中起着最为关键的作用,如上图 (b) 所示,ΔMAE 约为 0.4 eV 。上图 (c) 表明,相较电子特征而言,从 F21 中删除合金物理化学信息的影响更大 (ΔMAE ≈ 0.15 eV) 。特别是,研究人员发现了合金组分 B 的一个具体特征,即原子半径 B,其重要性尤为突出。无论删除顺序如何,当移除原子半径 B 时,观察到 ΔMAE 约为 0.1 eV 。原子半径 B 的重要性可能与双金属纳米晶体中的「配体」或「应变」效应有关。将第二金属 B 引入到主金属基体 A 中可能会引起电子状态和/或晶格应变(压缩或拉伸)的显著变化,从而影响化学吸附强度。

如上图 (d) 所总结的那样,在 F21 上发现的相对重要性排序为几何 > 物理化学 > 电子,与 Ftotal 的发现一致。

综上所述,本研究论证了,在二元合金催化剂表面的吸附位点的局部几何信息,对化学吸附能量 Eads  的重要影响,展示了基于 AutoML 的特征删除实验的稳定性、一致性和潜力。与传统的可解释性模型相比,该方法避免了模型复杂性与可解释性之间的折衷,将科学见解的来源从阐明模型行为,转移到评估特征集性能,将人为干扰对于结论的影响最小化,从对输出的统计行为中提取知识。

这种新提出的基于 AutoML 的特征分析方法,是揭示复杂物理科学中统计特征重要性的一种强大而灵活的工具,甚至超越了催化领域。

催化领域迈向高效未来

设计新型催化剂是解决许多能源和环境挑战的关键。然而,一方面,许多催化反应涉及复杂的反应机理,其中包括多种中间体和过渡态的生成和转化,这些反应机理可能受到多种因素的影响,如溶剂、温度、压力等,使得预测和理解催化剂的性能变得非常困难;另一方面,由于催化剂合成的复杂性和不确定性,试错的成本往往较高,传统方法可能需要尝试多种不同的材料和反应条件,这增加了催化剂开发的时间和成本。

为了克服这些挑战并提高新型催化剂的设计效率和性能,需要引入人工智能技术。人工智能可以利用大数据和机器学习算法来分析复杂的催化反应机理,加速催化剂的设计和优化过程。例如:

* 晶体结构预测和设计:人工智能可以用于预测和设计催化剂的晶体结构,从而提高催化性能。过去,科学家们通过调整已知晶体或试验新的元素组合来寻找新的晶体结构,如今深度学习等技术可以分析大量的晶体结构数据,并从中发现规律和趋势,从而指导催化剂设计。

* 化学反应预测和优化:人工智能可以帮助预测化学反应的产物和反应途径,并优化反应条件,以实现所需的催化效果。比如,科学家通过训练神经网络模型,可以建立反应机理的预测模型,并据此指导实验设计。

* 高通量材料筛选:人工智能可以加速高通量材料筛选过程,从大量候选材料中快速识别具有潜在催化性能的候选物。

* 智能实验设计和优化:人工智能可以帮助设计和优化实验方案,以最大程度地提高催化剂的合成效率和性能。通过结合机器学习和自动化实验技术,可以搭建智能实验平台,自动化地执行实验流程,并根据实时数据进行调整和优化。

举例而言,2023 年 9 月,北海道大学 (Hokkaido University) 的研究人员展示了一种外推机器学习方法,开发新型多元素反向水煤气变换催化剂。该研究使用 45 个催化剂作为初始数据点,并执行闭环发现系统的 44 个循环(ML 预测+实验),研究人员对总共 300 种催化剂进行了实验测试,并鉴定出 100 多种催化剂,这些催化剂与之前报道的高性能催化剂相比,具有更优异的活性。

该研究以「Accelerated discovery of multi-elemental reverse water-gas shift catalysts using extrapolative machine learning approach」为题,发布在 Nature Communications 。

未来,人工智能有望进一步提高催化剂的设计和合成效率,加速新型催化剂的发现和应用,从而推动化学领域的发展。

参考资料:
1.http://www.sdqiying.com/cxinwenz/469/
2.https://www.zhihuiya.com/newknowledge/info_2859.html
3.https://www.ceshigo.com/article/11511.html
4.https://www.jiqizhixin.com/articles/2023-10-21-19