Couvre Presque Le Tableau Périodique Des Éléments ! Meta Publie Un Ensemble De Données Open Source OMat24, Contenant 110 Millions De Résultats De Calcul DFT

Alors que la demande mondiale en énergie renouvelable continue de croître, la technologie de stockage d’énergie attire de plus en plus d’attention en tant que solution capable de stocker l’énergie et de la libérer en cas de besoin. Cependant, de nombreuses technologies de stockage d’énergie renouvelable présentent des coûts d’investissement initiaux élevés et sont difficiles à exploiter et à entretenir, et sont encore au stade de la recherche et du développement ou de la démonstration.
Compte tenu de cela,En 2020, le Facebook Artificial Intelligence Research Lab (FAIR), qui n’avait pas encore été renommé, et l’Université Carnegie Mellon ont lancé conjointement le projet Open Catalyst.L’objectif est d’utiliser l’IA pour découvrir de nouveaux catalyseurs pour le stockage des énergies renouvelables. Parallèlement à la sortie de ce projet, l'équipe de recherche a lancé l'ensemble de données de simulation de catalyseur OC20.
Adresse de téléchargement du jeu de données OC20 :
https://go.hyper.ai/dYeNS
En 2022, l'équipe de recherche a élargi et lancé l'ensemble de données Open Catalyst 2022 (OC22) basé sur l'ensemble de données OC20, rendant la formation du modèle plus précise.
Adresse de téléchargement du jeu de données OC22
https://go.hyper.ai/9FhFL
Récemment, Meta a une fois de plus réalisé une nouvelle avancée dans le domaine de la science des matériaux, en publiant l'ensemble de données open source à grande échelle Open Materials 2024 (OMat24) et un ensemble de modèles pré-entraînés de support. L'ensemble de données OMat24 contient plus de 110 millions de résultats de calcul de théorie fonctionnelle de la densité (DFT) axés sur la diversité structurelle et compositionnelle. Le modèle pré-entraîné est formé à l'aide du modèle EquformerV2 (eqV2), où le modèle eqV2-M atteint des performances de pointe sur le classement Matbench Discovery, capable de prédire la stabilité de l'état fondamental et l'énergie de formation, établissant une nouvelle référence pour la prédiction de la stabilité des matériaux.
Points saillants de la recherche :
* L'ensemble de données OMat24 est construit sur la base d'ensembles de données open source tels que MPtrj, Materials Project et Alexandria. Les éléments contenus dans l’ensemble de données couvrent presque tout le tableau périodique.
* Les modèles pré-entraînés sont disponibles en trois tailles : eqV2-S, eqV2-M et eqV2-L. Le modèle eqV2-M a un score F1 de 0,916 sur le classement Matbench Discovery, avec une erreur absolue moyenne de seulement 20 meV/atome

Adresse du document :
https://arxiv.org/pdf/2410.12771
Suivez le compte officiel et répondez « OMat24 » pour obtenir le PDF complet du document
Adresse de téléchargement du jeu de données OMat24 :
https://go.hyper.ai/gALHP
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
L'ensemble de données OMat24 contient plus de 110 millions de résultats de calcul DFT couvrant différentes configurations atomiques.
L'ensemble de données OMat24 est l'un des plus grands ensembles de données open source actuellement utilisés pour la formation de modèles de substitution DFT de matériaux.L'ensemble de données comprend des calculs DFT à point unique, des relaxations structurelles et des trajectoires dynamiques moléculaires pour une gamme de matériaux inorganiques en vrac.Au total, les chercheurs ont calculé environ 118 millions de structures annotées avec l'énergie totale, les forces (norme des forces) et la contrainte de la cellule unitaire (stress), en utilisant plus de 400 millions d'heures de calcul.
Ces structures ont été générées par trois techniques : l'échantillonnage de Boltzmann des structures vibrées, la dynamique moléculaire ab initio (AIMD) et les relaxations des structures vibrées.

L'ensemble de données OMat24 présente une large gamme de distributions d'énergie, de force et de contrainte. La figure ci-dessous montre la distribution des étiquettes d'énergie totale (exprimée en eV/atome), de forces (exprimées en eV/A) et de contrainte (exprimée en GPa) pour l'ensemble de données OMat24, l'ensemble de données MPtrj et l'ensemble de données Alexandria.
* L'ensemble de données MPtrj (Materials Project Trajectory Dataset) contient les résultats de calcul DFT pour plus de 1,5 million de structures inorganiques. En raison de sa grande échelle et de sa diversité, il présente une valeur d’application importante dans les domaines de la science des matériaux et de la science des matériaux computationnelle.
* L'ensemble de données Alexandria est une base de données de chimie quantique qui fournit une grande quantité de données sur les propriétés moléculaires pour le développement du champ de force et le développement et l'évaluation de la fonctionnelle de densité.

On peut voir que la distribution d’énergie de l’ensemble de données OMat24 est légèrement supérieure à celle de l’ensemble de données d’Alexandrie utilisé comme structure d’entrée, et significativement supérieure à celle de l’ensemble de données MPtrj ; la distribution de la force et de la contrainte des cellules unitaires de l'ensemble de données OMat24 est beaucoup plus élevée que celle des ensembles de données MPtrj et Alexandria.
Il convient de mentionner que les éléments inclus dans l’ensemble de données OMat24 couvrent presque le tableau périodique.Comme le montre la figure suivante :

Bien que l’ensemble de données OMat24 présente des avantages par rapport aux autres ensembles de données, les chercheurs ont également souligné que l’ensemble de données présente encore des limites. Cet ensemble de données est basé sur des calculs DFT aux niveaux PBE et PBE+U. Il ne contient que des structures périodiques en vrac et ne prend pas en compte les effets importants des défauts ponctuels, des surfaces, des rapports non stoechiométriques et des structures de faible dimension. Il existe donc des erreurs d’approximation inhérentes, mais ces erreurs ont été résolues dans une certaine mesure dans d’autres fonctionnelles.
Comme le montre la figure ci-dessous, les chercheurs ont comparé les résultats de calcul dans l'ensemble de données WBM avec les résultats de calcul à point unique en utilisant la configuration OMat24 DFT et ont constaté que l'erreur absolue moyenne entre les deux était de 52,25 meV/atome.
* L'ensemble de données WBM est une base de données de matériaux informatiques à grande échelle qui contient les données de structure électronique et de propriétés thermodynamiques d'un grand nombre de matériaux calculés à l'aide de DFT, tels que l'énergie de formation, le changement d'entropie, la capacité thermique spécifique, etc.

En utilisant EquformerV2 comme architecture de modèle, la formation du modèle est effectuée sur la base de trois principaux ensembles de données
Les chercheurs ont utilisé l’ensemble de données OMat24 ainsi que l’ensemble de données MPtrj et l’ensemble de données Alexandria pour former le modèle.Étant donné qu’il existe des structures similaires dans l’ensemble de données d’Alexandrie et dans l’ensemble de données WBM utilisé pour les tests, les chercheurs ont sous-échantillonné l’ensemble de données d’Alexandrie pour la formation afin de garantir qu’il n’y ait aucune omission entre l’ensemble de données de formation et l’ensemble de données de test.
Tout d’abord, les chercheurs ont créé un nouveau sous-ensemble d’Alexandrie (sAlexandria) en supprimant toutes les parties qui correspondaient aux structures initiales et relâchées du WBM. Pour réduire l'ensemble de données, les chercheurs ont supprimé les structures avec une énergie totale > 0 eV, une norme de force > 50 eV/Å et une contrainte > 80 GPa. Finalement, seules les structures avec des différences d’énergie supérieures à 10 meV/atome dans les trajectoires restantes ont été échantillonnées. Les ensembles de données résultants pour la formation et la validation contiennent respectivement 10 millions et 500 000 structures.
Pour l'architecture du modèle, les chercheurs ont choisi EquiformerV2, qui est actuellement le modèle le plus performant dans les classements OC20, OC22 et ODAC23.
Pour la formation du modèle, les chercheurs ont exploré 3 stratégies :
* Modèle EquiformerV2 formé uniquement sur l'ensemble de données OMat24, avec et sans objectifs d'augmentation de débruitage. Ces modèles ont la plus grande signification physique car ils ne s'adaptent qu'aux ensembles de données contenant des mises à jour significatives des pseudopotentiels sous-jacents par rapport à la configuration héritée du projet Materials.
* Les modèles EquiformerV2 formés uniquement sur l'ensemble de données MPtrj, avec et sans l'objectif d'augmentation de débruitage, peuvent être utilisés pour une comparaison directe avec le classement Matbench Discovery (marqués comme modèles conformes).
* Affinement supplémentaire d'OMat24 ou OC20 sur les ensembles de données combinés MPtrj ou sAlexandria pour former le modèle EquiformerV2, ce qui en fait le modèle le plus performant du classement Matbench Discovery (marqué comme modèle non conforme).
Le tableau suivant montre le nombre total de paramètres et le débit d'inférence des modèles formés sur la base de l'architecture EquiformerV2 et des modèles de spécifications différentes :

Le modèle formé avec EquiformerV2 obtient les meilleurs résultats dans le classement Matbench-Discovery
Les chercheurs ont utilisé le benchmark Matbench-Discovery pour évaluer le modèle EquiformerV2, et les résultats ont montré que les modèles conformes (entraînés uniquement avec MPtrj) et non conformes (entraînés avec des données supplémentaires) fonctionnaient bien.Le modèle EquiformerV2 a obtenu les meilleures performances au classement (le score F1 est le principal indicateur d'évaluation).
La figure suivante montre les performances d’autres modèles non conformes sur le classement Matbench-Discovery.

Les résultats montrent que le modèle eqV2-M a un score F1 de 0,916, une erreur absolue moyenne (MAE) de 20 meV/atome et une erreur quadratique moyenne (RMSE) de 72 meV/atome, établissant une nouvelle référence pour la prédiction de la stabilité des matériaux.
De plus, le modèle EquiformerV2 formé uniquement sur l'ensemble de données MPtraj fonctionne également bien, grâce à des stratégies efficaces d'augmentation des données telles que la débruitisation des structures hors équilibre (DeNS). Comme le montre le tableau ci-dessus, le modèle pré-entraîné basé sur l'ensemble de données OMat24 surpasse le modèle traditionnel en termes de précision, en particulier lorsqu'il s'agit de configurations déséquilibrées.
L'open source devient un accélérateur pour l'intégration de la science des matériaux et de l'IA
À l’ère actuelle des données, l’IA remodèle le paradigme de recherche en science des matériaux avec sa vitesse et sa précision sans précédent. En particulier, les connaissances, les outils et les données d’IA open source autour de la science des matériaux donneront à davantage de chercheurs, de développeurs et même de passionnés la possibilité de participer au processus d’innovation et de travailler ensemble pour promouvoir le développement de la science des matériaux.
Concernant la publication de l'ensemble de données open source OMat24 et de son modèle,Max Welling, expert en apprentissage automatique et scientifique en chef chez Microsoft Research, a déclaré sur les réseaux sociaux : « Je suis particulièrement enthousiasmé par le nouvel ensemble de données OMat24, qui a donné naissance à un nouveau modèle de base de champ de force d'apprentissage automatique de niveau SOTA. »

En fait, dès 2011, le Laboratoire national de Berkeley (LBNL) aux États-Unis a lancé le Projet Matériaux.Cet ensemble de données contient une grande quantité de données informatiques sur les matériaux inorganiques, telles que la structure cristalline, la structure électronique et les propriétés thermodynamiques, et est devenu une ressource de données importante pour la recherche actuelle en science des matériaux.
Adresse du document :
https://go.hyper.ai/KExvK
Adresse de téléchargement du jeu de données du projet Matériaux :
Un autre exemple est celui de l’Université Northwestern aux États-Unis, qui a publié en 2013 l’ensemble de données open source sur les matériaux quantiques OQMD.Il contient les résultats calculés des propriétés thermodynamiques et structurelles de 1 226 781 matériaux et est largement utilisé pour l'analyse DFT à haut débit de diverses applications de matériaux.
Adresse du document :
https://www.nature.com/articles/npjcompumats201510
Adresse de téléchargement du jeu de données OQMD :
https://go.hyper.ai/X4fE5
En 2018, le Massachusetts Institute of Technology (MIT) a publié le modèle CGCNN.Ce modèle est largement utilisé en science des matériaux et utilise des réseaux neuronaux graphiques pour prédire les propriétés des matériaux, telles que la bande interdite, le magnétisme et la stabilité thermodynamique des matériaux cristallins.
Adresse du document :
https://arxiv.org/pdf/1710.10324
En 2020, le National Institute of Standards and Technology (NIST) a publié la plateforme open source JARVIS.Se concentrer sur la prédiction des propriétés des matériaux et de la structure électronique. JARVIS-ML est son module d'apprentissage automatique, qui fournit des ensembles de données riches et des outils de criblage de matériaux basés sur l'apprentissage automatique, prend en charge la DFT, la simulation de dynamique moléculaire et l'apprentissage automatique, et peut aider les chercheurs à cribler et à découvrir rapidement de nouveaux matériaux.
Adresse du document :
https://arxiv.org/abs/2007.01831
En 2021, le NIST a publié le modèle ALIGNN.Ce modèle peut améliorer efficacement la précision de la prédiction des propriétés des matériaux en introduisant des graphiques linéaires pour capturer les interactions complexes entre les atomes.
Adresse du document :
https://www.nature.com/articles/s41524-021-00650-1
On peut constater que du criblage à haut débit à la conception automatisée de matériaux, l’open source est devenu un accélérateur important pour promouvoir l’intégration de la science des matériaux et de l’IA, et conduit la science des matériaux vers une nouvelle ère d’intelligence et d’efficacité accrues.
Références :
