HyperAIHyperAI
vor 17 Tagen

Maschinelles Lernen erreicht Vorhersagegenauigkeit, die besser ist als die Genauigkeit von DFT

{O. Anatole von Lilienfeld, George E. Dahl, Samuel S. Schoenholz, Bing Huang, Steven Kearnes, Patrick F. Riley, Luke Hutchison, Justin Gilmer, Felix A. Faber, Oriol Vinyals}
Maschinelles Lernen erreicht Vorhersagegenauigkeit, die besser ist als die Genauigkeit von DFT
Abstract

Wir untersuchen den Einfluss der Wahl von Regressoren und molekularen Darstellungen auf die Entwicklung schneller maschineller Lernmodelle (ML) für dreizehn elektronische Grundzustandseigenschaften organischer Moleküle. Die Leistung jeder Kombination aus Regressor/Darstellung/Eigenschaft wird anhand von Lernkurven bewertet, die die außerhalb der Trainingsmenge liegenden Fehler als Funktion der Größe der Trainingsmenge mit bis zu ∼117.000 unterschiedlichen Molekülen angeben. Molekülstrukturen und -eigenschaften, die für das Training und die Validierung verwendet werden, stammen aus der QM9-Datenbank [Ramakrishnan et al., Scientific Data 1, 140022 (2014)] und umfassen Dipolmoment, Polarisierbarkeit, HOMO-/LUMO-Energien und -Lücke, elektronische räumliche Ausdehnung, Nullpunkts-Schwingungsenergie, Enthalpien und Freie Energien der Atomisierung, Wärmekapazität sowie die höchste fundamentale Schwingungsfrequenz. Verschiedene Darstellungen aus der Literatur wurden untersucht (Coulomb-Matrix, Bag of Bonds, BAML und ECFP4, molekulare Graphen (MG)), sowie neu entwickelte, auf Verteilungen basierende Varianten, darunter Histogramme von Abständen (HD), Winkeln (HDA/MARAD) und Diederwinkeln (HDAD). Als Regressoren wurden lineare Modelle (Bayesian Ridge Regression (BR) und lineare Regression mit Elastic-Net-Regularisierung (EN)), Random Forest (RF), Kernel Ridge Regression (KRR) sowie zwei Arten von neuronalen Netzen, Graphen-Convolutionen (GC) und gated Graph-Netze (GG), eingesetzt. Wir präsentieren numerische Evidenz dafür, dass die Vorhersagen der ML-Modelle für alle Eigenschaften weniger von DFT abweichen als DFT von Experimenten abweicht. Zudem liegen unsere außerhalb der Trainingsmenge liegenden Vorhersagefehler im Vergleich zu einem Hybrid-DFT-Referenzwert auf dem Niveau der chemischen Genauigkeit oder sind ihr nahe. Unsere Ergebnisse deuten darauf hin, dass ML-Modelle genauer sein könnten als Hybrid-DFT, falls explizit elektronisch korrelierte Quanten- (oder experimentelle) Daten verfügbar wären.