15 天前

机器学习预测误差优于DFT精度

{O. Anatole von Lilienfeld, George E. Dahl, Samuel S. Schoenholz, Bing Huang, Steven Kearnes, Patrick F. Riley, Luke Hutchison, Justin Gilmer, Felix A. Faber, Oriol Vinyals}
机器学习预测误差优于DFT精度
摘要

我们研究了在构建有机分子十三种电子基态性质的快速机器学习(ML)模型时,选择不同回归器(regressor)和分子表示方法的影响。通过学习曲线评估每种回归器/表示方法/性质组合的性能,报告了在训练集规模最大达约11.7万种不同分子的情况下,模型的泛化误差随训练集大小的变化情况。用于训练和测试的分子结构与性质数据基于量子化学中的杂化密度泛函理论(hybrid DFT)水平,来源于QM9数据库 [Ramakrishnan et al, Scientific Data 1, 140022 (2014)],涵盖的性质包括偶极矩、极化率、HOMO/LUMO能级及其能隙、电子空间尺度、零点振动能量、原子化焓与自由能、热容以及最高基态振动频率。研究中考察了文献中多种分子表示方法(如库仑矩阵、键的集合(bag of bonds)、BAML、ECFP4、分子图(MG)),以及新提出的基于分布的变体,包括距离分布直方图(HD)、角度分布直方图(HDA/MARAD)和二面角分布直方图(HDAD)。所采用的回归器包括线性模型(贝叶斯岭回归(BR)与带弹性网络正则化的线性回归(EN))、随机森林(RF)、核岭回归(KRR),以及两类神经网络模型:图卷积网络(GC)与门控图网络(GG)。我们的数值结果表明,所有性质的机器学习模型预测结果与DFT计算值之间的偏差,均小于DFT计算值与实验值之间的偏差。此外,相对于杂化DFT参考值,模型的外样本预测误差已达到或接近化学精度(chemical accuracy)水平。这些结果提示:若能获得显式考虑电子关联的量子化学数据或实验数据,机器学习模型的预测精度甚至可能超越杂化密度泛函理论。

机器学习预测误差优于DFT精度 | 最新论文 | HyperAI超神经