L'efficacité De La Génération De Matériaux De Stabilité Est Augmentée De 300% ! Meta FAIR Publie Le Modèle De Génération De Matériaux FlowLLM, Avec Un Ensemble De Données Couvrant Plus De 45 000 Matériaux

Les matériaux cristallins sont une classe de matériaux dotés de structures atomiques, ioniques ou moléculaires régulièrement disposées, et jouent un rôle important dans l'industrie et la technologie.
Cependant, le processus de génération et de conception de matériaux cristallins n’est pas simple et nécessite généralement de prendre en compte une combinaison de variables discrètes et continues en même temps. Les variables discrètes définissent le cadre de base du matériau (comme le type atomique et la structure initiale du réseau), tandis que les variables continues permettent un réglage fin et une optimisation dans ce cadre de base pour générer finalement des matériaux cristallins avec des propriétés physiques et chimiques spécifiques.
Avec l’application interdisciplinaire de la technologie de l’IA,La manière de combiner efficacement des variables discrètes et continues dans le modèle pour obtenir des effets de génération de matériaux cristallins de haute qualité est devenue un problème central dans le domaine de la génération de matériaux cristallins.
Bien que les méthodes existantes, y compris les modèles de langage autorégressifs de grande taille (LLM) et les modèles de débruitage (tels que les modèles de diffusion de débruitage et les modèles de correspondance de flux), aient obtenu un certain succès dans ce domaine, elles ont toutes leurs propres limites.
Plus précisément, le LLM excelle dans la modélisation de valeurs discrètes, en particulier d'éléments discrets tels que les types d'atomes, mais il a du mal à décrire avec précision la géométrie du réseau et les positions des atomes. Le modèle de débruitage présente davantage d'avantages dans le traitement des variables continues et peut mieux maintenir l'équivariance dans la structure cristalline, mais il se heurte à des obstacles dans la modélisation d'éléments discrets tels que les types atomiques.
Sur cette base, le laboratoire FAIR de Meta et l'Université d'Amsterdam ont publié conjointement le modèle de génération de matériaux FlowLLM.Il s'agit d'un nouveau modèle génératif qui combine le modèle de langage large (LLM) et la correspondance de flux riemannien (RFM). Il est plus efficace dans la génération de matériaux stables que les modèles précédents de plus de 300%, et l'efficacité de génération de matériaux SUN est également améliorée d'environ 50%, tout en conservant la capacité de LLM à fournir des invites en langage naturel.
* Les matériaux SUN font référence à des matériaux stables, uniques et nouveaux, générés grâce à la technologie de l'IA dans le domaine de la science des matériaux. Ce concept a été proposé par Microsoft lors de la discussion du modèle MatterGen.
La recherche connexe, intitulée « FlowLLM : Flow Matching for Material Generation with Large Language Models as Base Distributions », a été téléchargée sur le site Web de préimpression arXiv et acceptée par NeurIPS 2024.
Points saillants de la recherche :
* FlowLLM combine LLM et RFM, comblant efficacement le fossé entre la modélisation discrète et continue, améliorant considérablement l'efficacité de la génération de matériaux stables, uniques et nouveaux
* FlowLLM surpasse considérablement CD-VAE, DiffCSP, FlowMM, CrystalLLM et d'autres modèles dans la génération de matériaux nouveaux et stables. Son taux de stabilité est d'environ 300% supérieur à celui du meilleur modèle précédent, et son taux SUN est d'environ 50% supérieur

Adresse du document :
https://arxiv.org/pdf/2410.23405
Suivez le compte officiel et répondez « FlowLLM » pour obtenir le PDF complet
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Ensemble de données : contient 45 231 matériaux et le modèle est formé sur l'ensemble de données MP-20
Le modèle FlowLLM est formé sur l'ensemble de données de matériaux cristallins inorganiques MP-20. MP-20 contient 45 231 matériaux,Un sous-ensemble du projet Matériaux contenant jusqu'à 20 atomes considérés comme métastables.
Tout d’abord, les chercheurs ont formé indépendamment LLM à l’aide de l’ensemble de données MP-20 et l’ont affiné dans PyTorch et Transformers à l’aide de la méthode LoRA (Low-Rank Adapters). Par la suite, les chercheurs ont utilisé la LLM affinée (poids gelé) comme distribution de base et l'ensemble de données MP-20 comme distribution cible pour former davantage le modèle RFM.
Avantages complémentaires : En combinant les deux modèles LLM + RFM, un modèle de nouvelle génération FlowLLM a vu le jour
FlowLLM est un nouveau modèle génératif qui combine le modèle de langage large (LLM) et le modèle de correspondance de flux riemannien (RFM).Il s’agit d’une étude complémentaire basée sur des travaux antérieurs, combinant de manière créative LLM et RFM.
Le LLM utilisé ici provient du résultat « Fine-Tuned Language Models Generate Stable Inorganic Materials as Text » publié par Meta FAIR et l'Université de New York en février de cette année. L'étude a prouvé que le taux de réussite du LLM affiné (LLaMA-2 70B) dans la prédiction de la génération de matériaux métastables est environ deux fois supérieur à celui du modèle de diffusion compétitive CDVAE.
Adresse du document :
https://arxiv.org/abs/2402.04379
FlowMM est issu du résultat « FlowMM : Generating Materials with Riemannian Flow Matching » publié par Meta FAIR et l'Université d'Amsterdam en juin de cette année. En tant que modèle génératif, FlowMM est trois fois plus efficace que les méthodes open source précédentes pour trouver des matériaux stables.
Adresse du document :
https://arxiv.org/abs/2406.04713
Comme le montre la figure ci-dessous, les chercheurs utilisent d’abord le LLM affiné pour générer une représentation matérielle initiale via une requête inconditionnelle. Le modèle RFM transforme ensuite le matériau de manière itérative, en mettant à jour ses positions atomiques et ses paramètres de réseau. Il convient de noter que dans RFM, le type d’atome reste inchangé.

Les chercheurs soulignent que la combinaison des deux modèles peut compléter les forces de l’autre.D'une part, LLM fournit une bonne base d'apprentissage pour la distribution RFM :La distribution de sortie de LLM sert de distribution de base apprise de RFM, remplaçant la distribution de base uniforme couramment utilisée. Étant donné que LLM a été formé sur des données matérielles, la distribution de base apprise est plus proche de la distribution cible, ce qui simplifie grandement l'intégration avec RFM.
* Dans les modèles d'écoulement (tels que RFM), la distribution de base est la distribution de départ à partir de laquelle le modèle génère des échantillons. L’apprentissage de la distribution sous-jacente peut capturer plus précisément la véritable structure et les modèles des données. En particulier lorsqu'il s'agit de données complexes (telles que les structures cristallines dans la conception de matériaux), l'apprentissage de la distribution sous-jacente peut améliorer efficacement la qualité des échantillons générés et les performances du modèle.
D'autre part, RFM optimise la sortie de LLM :LLM produit une représentation matérielle approximative en raison de sa précision limitée lors du traitement de valeurs continues. RFM affine cette approximation grâce à un débruitage itératif, ce qui donne une représentation plus précise.
Exceptionnel : L'efficacité de génération de matériaux stables du modèle a augmenté de 300%, l'efficacité de génération de matériaux SUN a augmenté de 50%
Pour tester les performances du modèle, les chercheurs ont comparé le modèle FlowLLM avec le modèle CD-VAE (un modèle hybride d'un autoencodeur variationnel et d'un modèle de diffusion), le modèle DiffCSP (un modèle de diffusion), le modèle FlowMM (un modèle de correspondance de flux riemannien) et le modèle CrystalLLM (un modèle LLaMA-2 affiné sur les séquences de matériaux), et ont demandé à chaque modèle de générer 10 000 nouvelles structures.
Dans la comparaison des performances,Les principaux indicateurs sur lesquels les chercheurs se sont concentrés étaient le taux de stabilité et le taux SUN. Plus précisément, la stabilité fait référence à la proportion de matériaux thermodynamiquement stables dans les matériaux générés, ce qui est un indicateur important de la synthétisabilité ; Le taux SUN fait référence à la proportion de matériaux stables, uniques et nouveaux. Le résultat est montré dans la figure ci-dessous :

En termes de stabilité et de taux SUN,La proportion de matériaux thermodynamiquement stables dans les matériaux générés par le modèle FlowLLM est de 17,82% et le taux SUN atteint 4,92%. L'équipe de recherche présentée dans l'article :Par rapport au modèle optimal précédent, le taux de stabilité de FlowLLM est amélioré de 300% et le taux SUN est amélioré de 50%.
La valeur d'Ehull est l'un des paramètres importants pour mesurer la stabilité et la synthétisabilité des matériaux. Pour une structure matérielle donnée, si la valeur d'Ehull est proche de zéro, cela signifie que le matériau est stable dans une large mesure et qu'il est plus susceptible d'exister dans le processus de synthèse réel. Une valeur Ehull plus élevée peut indiquer que le matériau n'est pas stable et est difficile à synthétiser.
Pour tester davantage la stabilité et la synthétisabilité des matériaux générés par FlowLLM,Les chercheurs ont comparé les valeurs Ehull des matériaux générés par FlowLLM avec celles des modèles existants, comme le montre la figure ci-dessous. La ligne pointillée représente le seuil de stabilité thermodynamique (Ehull = 0), le rouge représente le modèle FlowLLM et le bleu représente respectivement CD-VAE, DiffCSP et FlowMM.
On peut voir que FlowLLM peut générer plus de matériaux avec des valeurs Ehull inférieures par rapport aux autres modèles. C'est-à-dire,Les matériaux générés par FlowLLM sont plus stables et synthétisables que ceux générés par d’autres modèles.

De plus, les chercheurs ont évalué la valeur N-aire du modèle. La valeur N-aire fait référence au nombre de types d'éléments différents dans le matériau.Plus la valeur N-aire est élevée, plus la complexité du matériau est grande et plus il est difficile à synthétiser.Comme le montre la figure ci-dessous, les chercheurs ont comparé la distribution des valeurs N-aires de différents modèles. Les résultats montrent que FlowMM et FlowLLM sont plus cohérents avec la distribution des données que le modèle de diffusion. Cela signifie que lors de l'ajustement des données matérielles, les modèles FlowMM et FlowLLMPeut mieux capturer la structure intrinsèque et les caractéristiques de distribution du matériau.

Enfin, les chercheurs ont également mené une analyse comparative des étapes d’intégration RFM du modèle. Comme le montre la figure ci-dessous, comparé aux modèles de diffusion et d’adaptation de flux qui nécessitent des centaines ou des milliers d’étapes d’intégration,FlowLLM est capable de converger en seulement 50 étapes.

Cent écoles de pensée dans le domaine de la génération de matériaux cristallins
Dans le domaine de la recherche en science des matériaux, le laboratoire FAIR de Meta est récemment entré dans une période de haute productivité. Il y a quelques semaines à peine, l'ensemble de données OMat24 a été publié, qui contient plus de 110 millions de résultats de calcul DFT axés sur la diversité structurelle et compositionnelle, fournissant de nouvelles « matières premières » de haute qualité pour la formation des modèles.
En fait, dans le domaine de la génération de matériaux cristallins, en plus des modèles LLM et de débruitage mentionnés dans cet article, il existe plusieurs autres méthodes, telles que la génération de matériaux basée sur des réseaux antagonistes génératifs (GAN), la génération de matériaux basée sur des autoencodeurs variationnels (VAE), la génération de matériaux basée sur des réseaux neuronaux graphiques (GNN), etc.
En 2018, l'Université Paris Est et Sorbonne Université ont combiné deux modules GAN inter-domaines pour proposer CrystalGAN.Il convient de mentionner que CrystalGAN a été appliqué à la découverte de matériaux de stockage d'hydrogène, démontrant son efficacité pour résoudre de véritables défis de chimie et de science des matériaux.
La recherche connexe a été publiée dans ICLR 2019 sous le titre « CrystalGAN : Apprendre à découvrir des structures cristallographiques avec des réseaux antagonistes génératifs ».
Adresse du document :
https://openreview.net/pdf?id=SyEGUi05Km
En 2021, le laboratoire d'informatique et d'intelligence artificielle du MIT a proposé le CD-VAE.Il capture le biais inductif physique de la stabilité des matériaux en apprenant la distribution des données des matériaux stables. La recherche connexe a été publiée à l'ICLR 2022 sous le titre « Crystal Diffusion Variational Autoencoder for Periodic Material Generation ».
Adresse du document :
https://openreview.net/forum?id=03RLpj-tc_
En 2023, l'Université Chulalongkorn en Thaïlande et le Centre d'excellence thaïlandais en physique ont publié DP-CDVAE basé sur les recherches du CD-VAE. Tout en conservant des performances comparables à celles du CD-VAE, le DP-CDVAE présente des avantages significatifs en termes de précision énergétique, de performances de génération et de qualité de génération du réseau.
La recherche connexe a été publiée dans Nature sous le titre « Les modèles probabilistes de diffusion améliorent l'autoencodeur variationnel pour la modélisation générative de la structure cristalline ».
Adresse du document :
https://www.nature.com/articles/s41598-024-51400-4
En 2023, l'équipe Google DeepMind Materials a publié GNoME, un modèle de réseau neuronal graphique pour l'exploration des matériaux.En peu de temps, 2,2 millions de nouveaux cristaux ont été découverts (soit l'équivalent de près de 800 ans de connaissances accumulées par les scientifiques humains), dont 380 000 nouveaux cristaux avaient des structures stables, ce qui en fait les nouveaux matériaux potentiels les plus susceptibles d'être synthétisés expérimentalement et mis en service.
Cette année, des chercheurs de l’Université de Tohoku et du MIT ont également proposé le modèle GNNOpt basé sur la méthode GNN.L'identification réussie de 246 matériaux avec une efficacité de conversion d'énergie solaire supérieure à 32% et de 296 matériaux quantiques avec un poids quantique élevé a considérablement accéléré la découverte de l'énergie et des matériaux quantiques.
Les résultats de recherche pertinents sont bien plus que cela. Dans le domaine de la génération de matériaux cristallins, nous assistons à une scène prospère de « cent écoles de pensée en compétition ». À mesure que la recherche s’approfondit, nous avons des raisons de croire que ces méthodes et théories innovantes apporteront des solutions clés aux défis mondiaux dans des domaines tels que l’énergie, l’environnement et la santé.
