機械学習による予測誤差は、DFTの精度を上回る

有機分子の電子基底状態に関する13の物性に対する高速な機械学習(ML)モデル構築において、回帰手法(regressor)および分子表現(molecular representation)の選択が性能に与える影響を検討した。各回帰手法・分子表現・物性の組み合わせの性能は、学習曲線(learning curves)を用いて評価された。学習曲線では、訓練データサイズを変化させた際のサンプル外誤差(out-of-sample error)を、最大約11.7万種の異なる分子を用いて測定した。訓練およびテストに用いた分子構造と物性は、ハイブリッド密度汎関数理論(DFT)レベルの精度に基づくQM9データベース[Ramakrishnan et al., Scientific Data 1, 140022 (2014)]から取得しており、電気双極子モーメント、極化率、HOMO/LUMOエネルギーおよびギャップ、電子空間的広がり、零点振動エネルギー、原子化エンタルピーおよび自由エネルギー、熱容量、および最高の基底振動周波数を含む。文献に報告されたさまざまな分子表現(コロンブ行列、ボックス・オブ・ボンズ、BAMLおよびECFP4、分子グラフ(MG))に加え、新たに開発された分布に基づく表現(距離のヒストグラム(HD)、角度のヒストグラム(HDA/MARAD)、二面角のヒストグラム(HDAD))も検討した。回帰手法としては、線形モデル(ベイズリッジ回帰(BR)、リッジ回帰とエラスティックネット正則化を組み合わせた線形回帰(EN))、ランダムフォレスト(RF)、カーネルリッジ回帰(KRR)、および2種類のニューラルネットワーク(グラフ畳み込み(GC)、ゲート付きグラフネットワーク(GG))を用いた。数値的証拠として、すべての物性について、MLモデルの予測値がDFTの予測値よりも実験値とのずれが小さいことを示した。さらに、ハイブリッドDFTを基準として用いたサンプル外予測誤差は、化学的精度(chemical accuracy)と同等、あるいはそれに近い水準に達している。これらの結果から、もし明示的に電子相関を考慮した量子計算データまたは実験データが利用可能であれば、MLモデルはハイブリッドDFTよりも高い精度を達成できる可能性が示唆される。