Les erreurs de prédiction de l'apprentissage automatique sont inférieures à la précision de la DFT

Nous étudions l’impact du choix des régresseurs et des représentations moléculaires dans la construction de modèles d’apprentissage automatique (ML) rapides pour treize propriétés de l’état fondamental électronique de molécules organiques. La performance de chaque combinaison régresseur/représentation/propriété est évaluée à l’aide de courbes d’apprentissage, qui rapportent les erreurs hors échantillon en fonction de la taille de l’ensemble d’entraînement, jusqu’à environ 117 000 molécules distinctes. Les structures moléculaires et les propriétés utilisées pour l’entraînement et le test proviennent de la base de données QM9 [Ramakrishnan et al., Scientific Data 1, 140022 (2014)] et incluent le moment dipolaire, la polarisabilité, les énergies et l’écart entre les niveaux HOMO/LUMO, l’étendue spatiale électronique, l’énergie vibratoire de point zéro, les enthalpies et énergies libres d’atomisation, la capacité thermique ainsi que la fréquence vibratoire fondamentale maximale. Différentes représentations issues de la littérature ont été examinées (matrice de Coulomb, sac de liaisons, BAML et ECFP4, graphes moléculaires (MG)), ainsi que des variantes récemment développées basées sur des distributions, notamment des histogrammes de distances (HD), d’angles (HDA/MARAD) et de dièdres (HDAD). Les régresseurs considérés comprennent des modèles linéaires (régression ridge bayésienne (BR) et régression linéaire avec régularisation en réseau élastique (EN)), la forêt aléatoire (RF), la régression ridge à noyau (KRR) ainsi que deux types de réseaux de neurones : les convolutions de graphes (GC) et les réseaux de graphes à portes (GG). Nous présentons des preuves numériques selon lesquelles les prédictions des modèles ML s’écartent du calcul DFT moins que le DFT lui-même ne s’écarte des données expérimentales pour toutes les propriétés. En outre, nos erreurs de prédiction hors échantillon par rapport à la référence DFT hybride sont comparables à, voire proches de, la précision chimique. Nos résultats suggèrent que les modèles ML pourraient être plus précis que le DFT hybride si des données quantiques (ou expérimentales) explicitement corrélées électroniquement étaient disponibles.