Molecule3D : Un Benchmark pour la Prédiction des Géométries 3D à Partir de Graphes Moléculaires

Les réseaux neuronaux graphiques émergent comme des méthodes prometteuses pour modéliser les graphes moléculaires, où les nœuds et les arêtes correspondent respectivement aux atomes et aux liaisons chimiques. Des études récentes montrent que lorsque des géométries moléculaires 3D, telles que les longueurs de liaison et les angles, sont disponibles, les tâches de prédiction des propriétés moléculaires peuvent être rendues plus précises. Cependant, le calcul des géométries moléculaires 3D nécessite des calculs quantiques qui sont prohibitifs en termes de ressources informatiques. Par exemple, un calcul précis des géométries 3D d'une petite molécule peut nécessiter plusieurs heures de temps de calcul en utilisant la théorie fonctionnelle de la densité (DFT). Nous proposons ici de prédire les géométries 3D d'état fondamental à partir de graphes moléculaires en utilisant des méthodes d'apprentissage automatique. Pour rendre cela réalisable, nous avons développé un benchmark appelé Molecule3D, qui comprend un ensemble de données avec des géométries d'état fondamental précises d'environ 4 millions de molécules dérivées de la DFT. Nous fournissons également un ensemble d'outils logiciels pour le traitement des données, leur partitionnement, l'entraînement et l'évaluation, etc. Plus précisément, nous proposons d'évaluer l'erreur et la validité des géométries prédites à l'aide de quatre métriques. Nous mettons en œuvre deux méthodes baselines qui prédisent soit la distance entre paires d'atomes, soit les coordonnées atomiques dans l'espace 3D. Les résultats expérimentaux montrent que, comparativement à la génération de géométries 3D avec RDKit, notre méthode peut atteindre une précision de prédiction comparable mais avec des coûts informatiques beaucoup plus faibles. Notre Molecule3D est disponible sous forme de module dans la bibliothèque logicielle MoleculeX (https://github.com/divelab/MoleculeX).