Command Palette
Search for a command to run...
机器学习预测误差优于DFT精度
机器学习预测误差优于DFT精度
Felix A. Faber Luke Hutchison Bing Huang Justin Gilmer Samuel S. Schoenholz George E. Dahl Oriol Vinyals Steven Kearnes Patrick F. Riley O. Anatole von Lilienfeld
Abstract
我们研究了在构建有机分子十三种电子基态性质的快速机器学习(ML)模型时,选择不同回归器与分子表示方法的影响。通过学习曲线评估每种回归器/分子表示/性质组合的性能,学习曲线展示了在训练集规模高达约11.7万个不同分子的情况下,模型在样本外预测误差随训练集大小的变化情况。用于训练和测试的分子结构与性质数据来自QM9数据库[Ramakrishnan等,{em Scientific Data} {f 1},140022(2014)],涵盖偶极矩、极化率、HOMO/LUMO能级及其能隙、电子空间尺度、零点振动能量、原子化焓与自由能、热容以及最高基本振动频率等性质。本文考察了文献中多种分子表示方法(包括库仑矩阵、键袋(bag of bonds)、BAML与ECFP4、分子图(MG)),以及新提出的基于分布的变体,如距离分布直方图(HD)、角度分布直方图(HDA/MARAD)和二面角分布直方图(HDAD)。所采用的回归器包括线性模型(贝叶斯岭回归(BR)与带弹性网络正则化的线性回归(EN))、随机森林(RF)、核岭回归(KRR),以及两类神经网络模型:图卷积网络(GC)与门控图网络(GG)。我们提供了数值证据表明,所有性质的机器学习模型预测结果与DFT计算值之间的偏差,均小于DFT计算值与实验值之间的偏差。此外,我们的模型在样本外预测误差方面,相对于杂化密度泛函理论(hybrid DFT)参考值,已达到或接近化学精度(chemical accuracy)水平。研究结果提示,若能获得显式电子相关量子力学(或实验)数据,机器学习模型的预测精度甚至可能超越杂化DFT方法。
一句话总结
来自巴塞尔大学和谷歌(山景城与伦敦)的研究人员表明,机器学习模型——特别是基于分子图的神经网络(MG/GC、MG/GG)和基于直方图的表示(HDAD)结合核岭回归——在预测有机分子13种电子和能量性质时,其外样本预测误差达到或低于杂化密度泛函理论(DFT)的精度,其中多项达到化学精度,表明若使用更高级别的参考数据进行训练,机器学习模型有望超越DFT。
主要贡献
-
本研究系统评估了多种机器学习模型在QM9数据集上预测有机分子13种电子和能量性质的性能,训练集规模接近11.7万分子,旨在检验机器学习是否能在预测量子化学性质方面超越杂化密度泛函理论(DFT)的精度。
-
研究表明,特定的分子表示组合——如用于电子性质的分子图(MG)和用于能量性质的基于直方图的描述符(HDAD)——与适当的回归器(如图卷积GC或核岭回归KRR)结合,可实现与实验相对的DFT估计误差相当或更低的外样本误差。
-
对所有性质而言,表现最佳的机器学习模型的预测误差均与实验相对的DFT典型误差持平或更低,许多已达到化学精度,表明若能获取更高级别的量子或实验数据,训练出的机器学习模型有望超越DFT。
引言
研究人员探讨了用于预测有机分子电子和能量性质的机器学习(ML)模型,采用包含超过11.7万分子的QM9数据集,其参考数据为高精度杂化DFT计算结果。本工作意义重大,因为它系统性地评估了多种分子表示与回归器的组合——涵盖传统描述符(如库仑矩阵、ECFP4)到新型基于分布的特征(如HDAD、MARAD)以及基于图的模型(GC、GG)——以确定不同性质的最优组合。以往研究在数据规模、表示方式或基准范围上常缺乏一致性,难以判断机器学习能否在精度上超越DFT。本研究的关键贡献在于,对于所研究的全部13种性质,表现最佳的机器学习模型均实现了小于或等于实验相对DFT估计误差的外样本误差,且多数达到化学精度。这表明,若能获取更高级别的量子或实验数据,机器学习模型在预测精度上可超越DFT,同时计算速度高出数个数量级。

数据集
-
数据集包含约13.1万种类药物的有机分子,来自QM9数据集,限定原子种类为H、C、O、N、F,最多含9个重原子。排除了3,053个SMILES一致性检查失败的分子及两个线性分子。
-
每个分子包含13个在B3LYP/6-31G(2df,p) DFT水平下计算的量子力学性质:偶极矩、静态极化率、HOMO与LUMO本征值、HOMO-LUMO能隙、电子空间尺度、零点振动能量,以及0 K(U₀)、室温(U、H、G)下的原子化能、热容和最高基本振动频率。分析聚焦于能量相关性质的U₀。
-
研究采用标准的训练/验证/测试划分,所有模型使用相同的划分方式。评估了多种表示方法:库仑矩阵(CM)、键袋(BoB)、BAML(键、角、机器学习)、ECFP4指纹和分子图(MG),每种均以不同方式处理。
-
对于CM和BoB,原子排序基于原子行的L¹范数,BoB将库仑项按原子对分组并按大小排序。BAML在BoB基础上,用Morse/Lennard-Jones势能替换键合/非键合对的库仑项,并基于UFF添加角度和二面角项。ECFP4使用固定长度1024位向量,基于直径不超过4个键的哈希子图生成,仅依赖分子图。
-
分子图(MG)特征包括原子级描述符(如原子序数、杂化态、氢原子数)和成对级特征(如键类型、欧氏距离)。距离信息被离散化为10个区间(0–2、2–2.5、…、6+ Å),邻接矩阵使用14种离散类型(键类型与距离区间)。367个分子因OpenBabel或RDKit中SMILES转换失败被排除。
-
所有属性值在训练前被标准化为零均值和单位方差。门控图神经网络(GG)按每种性质单独训练,距离区间被纳入邻接矩阵,隐藏状态在多步中更新。随机森林模型使用120棵树,并在标准化数据上训练。
方法
研究人员采用一系列分子表示方法,旨在从分子中捕捉结构与几何信息,每种方法均针对不同建模范式进行设计。框架始于分子原子径向角分布(MARAD),这是一种基于径向分布函数(RDF)的表示,通过引入三个RDF扩展了原子表示ARAD:成对距离,以及原子三元组中距离的平行与正交投影。尽管MARAD本质上是基于距离的,但大多数回归器(如贝叶斯岭回归BR、弹性网络EN、随机森林RF)并不依赖表示之间的内积或距离。为解决此限制,MARAD被投影到离散区间,从而与这些模型兼容。该分箱过程使表示可广泛应用于各类回归技术,但图卷积(GC)和图生成(GG)仅使用分子图(MG)表示。
作为MARAD的替代方案,研究人员考察了基于直方图的表示,通过手动构建的区间直接编码成对距离、三元组角度和四元组二面角。这些表示分别称为HD(距离直方图)、HDA(距离与角度直方图)和HDAD(距离、角度与二面角直方图),通过遍历分子中每个原子ai并计算其相对于邻近原子的特征来构建。对于距离特征,测量ai与aj(i=j)之间的距离,并用该对原子的排序原子符号标记(氢原子排在最后)。角度特征由从ai到其两个最近邻aj和ak的向量所形成的主要角度导出,标记为ai的原子类型后接aj和ak的字母序排序类型。二面角特征由由ai、aj、ak、al定义的两个平面之间的主要角度计算得出,标签由ai、aj、ak、al的原子符号构成,同样按字母序排序,氢原子排在最后。
对每种标签类型的直方图进行分析,以识别显著的局部极小值和极大值,这些被解释为结构共性。分箱中心置于这些极值处,选取15–25个中心点的值作为每种标签类型的表示。对于每个分子,特征通过两步过程转化为固定大小的向量:首先,分箱与插值,将每个特征值投影到最近的两个分箱并使用线性插值;其次,归约,将每个分箱内的贡献相加,生成单一值。该过程确保表示既紧凑又信息丰富,能够捕捉关键结构特征。
所采用的模型包括核岭回归(KRR)、贝叶斯岭回归(BR)和弹性网络(EN),每种均具有不同的正则化策略。KRR使用核函数作为基集,预测查询分子m的属性p为所有训练分子mitrain与m之间核函数的加权和:
p(m)=i∑NαiK(m,mitrain)其中αi为通过最小化预测值与参考值之间欧氏距离获得的回归系数。作者使用拉普拉斯核和高斯核,正则化强度设为10−9,因数据噪声较低。核宽度通过以2为底的对数网格筛选优化,特征向量使用欧氏范数归一化(高斯核)或曼哈顿范数归一化(拉普拉斯核)。
BR是一种带有L2系数惩罚的线性模型,最优正则化强度由数据估计,无需手动调参。EN结合了L1与L2惩罚,相对强度由l1_ratio超参数控制。作者设定l1_ratio = 0.5,并在以10为底的对数网格上对正则化参数进行超参数搜索。
最后,图卷积(GC)模型基于Kearnes等人描述的架构,进行了三项关键修改。第一,移除了“成对顺序不变性”特性,通过简化(A→P)变换,因模型仅使用原子层获取分子级特征。第二,在(P→A)变换中引入原子间欧氏距离,通过将卷积输出与自身缩放版本(d−1、d−2、d−3、d−6)拼接实现,其中d为距离。第三,通过在原子上对softmax变换后的原子层向量求和生成分子级特征,该方法受指纹技术(如扩展连接性指纹)启发。该方法表现与或优于原始GC模型中使用的高斯直方图。超参数优化通过HyperTune的高斯过程带状优化进行,搜索基于单个数据折的验证集性能。
实验
- 在QM9中约11.7万分子上评估多种回归器-表示组合,采用10折交叉验证与测试集分析;最佳模型在13种性质中有8种达到或超过化学精度,其余性质误差在化学精度的2倍以内。
- GC和GG神经网络在多数性质上优于其他回归器,尤其在电子性质(μ、α、ε_HOMO、ε_LUMO、Δε)上表现突出;KRR在广延性质(⟨R²⟩、ZPVE、U₀、Cᵥ)上表现强劲,整体排名第二。
- HDAD表示在KRR下持续优于HD和HDA,尤其有效捕捉三体与四体相互作用;其简洁性与可解释性符合奥卡姆剃刀原则,但缺乏可微性。
- 随机森林(RF)回归器仅在ω₁(最高振动频率)上表现卓越,误差低至个位数cm⁻¹,归因于其通过决策树检测键类型的能力;但在其他性质上表现较差。
- ECFP4与BR/EN回归器泛化能力差;ECFP4在广延性质上失败,BR与EN则表现出高误差,且随训练规模增加改善有限,因模型灵活性不足。
- 学习曲线显示,随着训练集规模增大,误差系统性降低,某些性质-表示组合的斜率更陡,表明化学空间的有效维度较低。
研究人员利用学习曲线评估多种回归器与表示组合在多个分子性质上的性能,结果表明模型误差通常随训练集规模增大而减小。结果显示,基于图的神经网络(GC、GG)和核岭回归(KRR)在多数性质上实现最低的平均绝对误差,其中GC与GG在电子性质上表现最佳,而HDAD/KRR在极化率和热容等广延性质上表现优异。
研究人员在QM9数据集上对多种机器学习模型进行全面基准测试,评估不同回归器与表示在预测分子性质方面的性能。结果表明,基于图的神经网络(GC、GG)和核岭回归(KRR)误差最低,GC与GG在电子性质上优于其他方法,KRR在广延性质上表现突出,而EN、BR和RF回归器始终产生更高误差。

