OQM9HK : Un ensemble de données graphes à grande échelle pour l'apprentissage automatique en science des matériaux

Nous présentons un grand ensemble de données comprenant des propriétés calculées à l’aide de la mécanique quantique pour des matériaux cristallins, destiné à l’apprentissage par représentation graphique, contenant environ 900 000 entrées (OQM9HK). Cet ensemble de données est construit à partir de la base de données ouverte des matériaux quantiques (Open Quantum Materials Database, OQMD) v1.5, qui contient plus d’un million d’entrées, et constitue la version successor de l’ensemble de données OQMD v1.2, comprenant environ 600 000 entrées (OQM6HK). Nous avons développé un algorithme de construction de graphes permettant de générer un graphe à arêtes binaires étiquetées (BEL, Binary Edge-Labeled graph) représentant un matériau cristallin. Ce graphe BEL offre une représentabilité supérieure de la structure cristalline par rapport aux graphes sans étiquetage d’arêtes. Dans les tâches de prédiction des propriétés des matériaux, les réseaux de neurones à graphes cristallins entraînés sur l’ensemble de données BEL obtiennent de meilleurs résultats que ceux entraînés sur d’autres ensembles de graphes. L’ensemble de données graphique OQM9HK est disponible sur le dépôt Zenodo à l’adresse suivante : https://doi.org/10.5281/zenodo.7124330