Die Effizienz Der Stabilitätsmaterialerzeugung Wird Um 300% Erhöht! Meta FAIR Veröffentlicht Materialgenerierungsmodell FlowLLM Mit Einem Datensatz, Der Mehr Als 45.000 Materialien Umfasst

Kristalline Materialien sind eine Klasse von Werkstoffen mit regelmäßig angeordneten atomaren, ionischen oder molekularen Strukturen und spielen in Industrie und Technik eine wichtige Rolle.
Allerdings ist der Erzeugungs- und Designprozess kristalliner Materialien nicht einfach und erfordert normalerweise die gleichzeitige Berücksichtigung einer Kombination diskreter und kontinuierlicher Variablen. Die diskreten Variablen definieren das Grundgerüst des Materials (wie etwa Atomtyp und anfängliche Gitterstruktur), während die kontinuierlichen Variablen eine Feinabstimmung und Optimierung innerhalb dieses Grundgerüsts ermöglichen, um letztendlich kristalline Materialien mit spezifischen physikalischen und chemischen Eigenschaften zu erzeugen.
Mit der interdisziplinären Anwendung von KI-TechnologieDie Frage, wie diskrete und kontinuierliche Variablen im Modell effektiv kombiniert werden können, um qualitativ hochwertige Effekte bei der Erzeugung von Kristallmaterialien zu erzielen, ist zu einem zentralen Problem im Bereich der Erzeugung von Kristallmaterialien geworden.
Obwohl bestehende Methoden, einschließlich autoregressiver Large Language Models (LLMs) und Rauschunterdrückungsmodelle (wie etwa Rauschunterdrückungsdiffusionsmodelle und Flow-Matching-Modelle), in diesem Bereich einige Erfolge erzielt haben, weisen sie alle ihre eigenen Einschränkungen auf.
Insbesondere zeichnet sich LLM durch die Modellierung diskreter Werte aus, insbesondere diskreter Elemente wie Atomtypen, hat jedoch Schwierigkeiten, die Gittergeometrie und die Positionen von Atomen genau zu beschreiben. Das Rauschunterdrückungsmodell bietet mehr Vorteile beim Umgang mit kontinuierlichen Variablen und kann die Äquivarianz in der Kristallstruktur besser aufrechterhalten, stößt jedoch bei der Modellierung diskreter Elemente wie Atomtypen auf Hindernisse.
Darauf basierend haben Metas FAIR-Labor und die Universität Amsterdam gemeinsam das Materialgenerierungsmodell FlowLLM veröffentlicht.Dies ist ein neues generatives Modell, das das Large Language Model (LLM) und das Riemannsche Flow Matching (RFM) kombiniert. Es ist bei der Generierung stabiler Materialien um mehr als 300% effizienter als vorherige Modelle und die Effizienz bei der Generierung von SUN-Materialien ist ebenfalls um etwa 50% verbessert, während die Fähigkeit von LLM, natürliche Sprachanweisungen bereitzustellen, erhalten bleibt.
* SUN-Materialien sind stabile, einzigartige und neuartige Materialien, die durch KI-Technologie im Bereich der Materialwissenschaft erzeugt werden. Dieses Konzept wurde von Microsoft bei der Diskussion des MatterGen-Modells vorgeschlagen.
Die zugehörige Forschung mit dem Titel „FlowLLM: Flow Matching for Material Generation with Large Language Models as Base Distributions“ wurde auf die Preprint-Website arXiv hochgeladen und von NeurIPS 2024 angenommen.
Forschungshighlights:
* FlowLLM kombiniert LLM und RFM und schließt so effektiv die Lücke zwischen diskreter und kontinuierlicher Modellierung. Dadurch wird die Effizienz bei der Erzeugung stabiler, einzigartiger und neuartiger Materialien erheblich verbessert.
* FlowLLM übertrifft CD-VAE, DiffCSP, FlowMM, CrystalLLM und andere Modelle bei der Erzeugung neuer und stabiler Materialien deutlich. Seine Stabilitätsrate ist etwa 300% höher als beim vorherigen Topmodell, und seine SUN-Rate ist etwa 50% höher

Papieradresse:
https://arxiv.org/pdf/2410.23405
Folgen Sie dem offiziellen Konto und antworten Sie mit „FlowLLM“, um das vollständige PDF zu erhalten
Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:
https://github.com/hyperai/awesome-ai4s
Datensatz: Enthält 45.231 Materialien, und das Modell wird auf dem MP-20-Datensatz trainiert
Das FlowLLM-Modell wird anhand des Datensatzes MP-20 für anorganische kristalline Materialien trainiert. MP-20 enthält 45.231 Materialien,Eine Teilmenge des Materials Project, die bis zu 20 Atome enthält, die als metastabil gelten.
Zunächst trainierten die Forscher LLM unabhängig voneinander mit dem MP-20-Datensatz und optimierten es in PyTorch und Transformers mit der LoRA-Methode (Low-Rank Adapters). Anschließend verwendeten die Forscher das fein abgestimmte LLM (Weight Frozen) als Basisverteilung und den MP-20-Datensatz als Zielverteilung, um das RFM-Modell weiter zu trainieren.
Ergänzende Vorteile: Durch die Kombination der beiden Modelle LLM + RFM entstand ein Modell der neuen Generation FlowLLM
FlowLLM ist ein neuartiges generatives Modell, das das Large Language Model (LLM) und das Riemannian Flow Matching (RFM)-Modell kombiniert.Es handelt sich um ein weiterführendes Studium, das auf früheren Arbeiten aufbaut und LLM und RFM kreativ kombiniert.
Das hier verwendete LLM stammt aus dem Ergebnis „Fine-Tuned Language Models Generate Stable Inorganic Materials as Text“, das im Februar dieses Jahres von Meta FAIR und der New York University veröffentlicht wurde. Die Studie bewies, dass die Erfolgsrate des fein abgestimmten LLM (LLaMA-2 70B) bei der Vorhersage der Entstehung metastabiler Materialien etwa doppelt so hoch ist wie die des kompetitiven Diffusionsmodells CDVAE.
Papieradresse:
https://arxiv.org/abs/2402.04379
FlowMM basiert auf dem Ergebnis „FlowMM: Generating Materials with Riemannian Flow Matching“, das im Juni dieses Jahres von Meta FAIR und der Universität Amsterdam veröffentlicht wurde. Als generatives Modell ist FlowMM beim Auffinden stabiler Materialien dreimal effizienter als frühere Open-Source-Methoden.
Papieradresse:
https://arxiv.org/abs/2406.04713
Wie in der folgenden Abbildung dargestellt, verwenden die Forscher zunächst das fein abgestimmte LLM, um durch eine bedingungslose Abfrage eine erste Materialdarstellung zu generieren. Das RFM-Modell transformiert dann iterativ das Material und aktualisiert seine Atompositionen und Gitterparameter. Es ist zu beachten, dass der Atomtyp in RFM unverändert bleibt.

Die Forscher weisen darauf hin, dass sich die Stärken der beiden Modelle durch die Kombination gegenseitig ergänzen können.Einerseits bietet LLM eine gute Lernbasisverteilung für RFM:Die Ausgabeverteilung von LLM dient als gelernte Basisverteilung von RFM und ersetzt die üblicherweise verwendete gleichmäßige Basisverteilung. Da LLM anhand von Materialdaten trainiert wurde, liegt die erlernte Basisverteilung näher an der Zielverteilung, was die Integration mit RFM erheblich vereinfacht.
* In Flussmodellen (wie RFM) ist die Basisverteilung die Ausgangsverteilung, aus der das Modell Stichproben generiert. Durch das Erlernen der zugrunde liegenden Verteilung können die wahre Struktur und die Muster der Daten genauer erfasst werden. Insbesondere beim Umgang mit komplexen Daten (wie etwa Kristallstrukturen im Materialdesign) kann das Erlernen der zugrunde liegenden Verteilung die Qualität der generierten Proben und die Leistung des Modells effektiv verbessern.
Andererseits optimiert RFM die Ausgabe von LLM:Aufgrund der begrenzten Genauigkeit bei der Verarbeitung kontinuierlicher Werte erzeugt LLM eine ungefähre Materialdarstellung. RFM verfeinert diese Annäherung durch iterative Rauschunterdrückung, was zu einer genaueren Darstellung führt.
Hervorragend: Die Effizienz der Materialerzeugung im stabilen Modell wurde um 300% erhöht, die Effizienz der Materialerzeugung im SUN um 50%
Um die Leistung des Modells zu testen, verglichen die Forscher das FlowLLM-Modell mit dem CD-VAE-Modell (einem Hybridmodell aus einem Variational Autoencoder und einem Diffusionsmodell), dem DiffCSP-Modell (einem Diffusionsmodell), dem FlowMM-Modell (einem Riemannschen Flow-Matching-Modell) und dem CrystalLLM-Modell (einem auf Materialfolgen abgestimmten LLaMA-2-Modell) und forderten jedes Modell auf, 10.000 neue Strukturen zu generieren.
Im LeistungsvergleichDie Hauptindikatoren, auf die sich die Forscher konzentrierten, waren die Stabilitätsrate und die SUN-Rate. Konkret bezieht sich Stabilität auf den Anteil thermodynamisch stabiler Materialien in den erzeugten Materialien, was ein wichtiger Indikator für die Synthetisierbarkeit ist; Die SUN-Rate bezieht sich auf den Anteil stabiler, einzigartiger und neuartiger Materialien. Das Ergebnis ist in der folgenden Abbildung dargestellt:

In Bezug auf Stabilität und SUN-Rate,Der Anteil thermodynamisch stabiler Materialien in den vom FlowLLM-Modell generierten Materialien beträgt 17,82%, und die SUN-Rate erreicht 4,92%. Das Forschungsteam stellte in der Arbeit vor:Im Vergleich zum vorherigen optimalen Modell hat sich die Stabilitätsrate von FlowLLM um 300% und die SUN-Rate um 50% verbessert.
Der Ehull-Wert ist einer der wichtigen Parameter zur Messung der Stabilität und Synthetisierbarkeit von Materialien. Wenn der Ehull-Wert für eine gegebene Materialstruktur nahe Null liegt, bedeutet dies, dass das Material weitgehend stabil ist und mit größerer Wahrscheinlichkeit im eigentlichen Syntheseprozess vorhanden ist. Ein höherer Ehull-Wert kann darauf hinweisen, dass das Material nicht stabil ist und sich nur schwer synthetisieren lässt.
Um die Stabilität und Synthetisierbarkeit der von FlowLLM generierten Materialien weiter zu testen,Die Forscher verglichen die Ehull-Werte der von FlowLLM generierten Materialien mit denen bestehender Modelle, wie in der folgenden Abbildung dargestellt. Die gepunktete Linie stellt die thermodynamische Stabilitätsschwelle dar (Ehull = 0), Rot stellt das FlowLLM-Modell dar und Blau stellt CD-VAE, DiffCSP und FlowMM dar.
Es ist ersichtlich, dass FlowLLM im Vergleich zu anderen Modellen mehr Materialien mit niedrigeren Ehull-Werten erzeugen kann. Das heißt,Die von FlowLLM generierten Materialien sind stabiler und synthetisierbarer als die von anderen Modellen generierten.

Darüber hinaus bewerteten die Forscher den N-ären Wert des Modells. Der N-äre Wert bezieht sich auf die Anzahl der verschiedenen Elementtypen im Material.Je höher der N-äre Wert, desto komplexer ist das Material und desto schwieriger ist es, es zu synthetisieren.Wie in der folgenden Abbildung dargestellt, verglichen die Forscher die Verteilung der N-ären Werte verschiedener Modelle. Die Ergebnisse zeigen, dass FlowMM und FlowLLM mit der Datenverteilung konsistenter sind als das Diffusionsmodell. Dies bedeutet, dass beim Anpassen der Materialdaten die Modelle FlowMM und FlowLLMKann die intrinsische Struktur und Verteilungseigenschaften des Materials besser erfassen.

Abschließend führten die Forscher auch eine vergleichende Analyse der RFM-Integrationsschritte des Modells durch. Wie in der Abbildung unten gezeigt, im Vergleich zu Diffusions- und Flussanpassungsmodellen, die Hunderte oder Tausende von Integrationsschritten erfordern,FlowLLM kann in nur 50 Schritten konvergieren.

Hundert Denkschulen auf dem Gebiet der Kristallmaterialerzeugung
Im Bereich der Materialforschung hat das FAIR-Labor von Meta vor Kurzem eine Phase hoher Produktivität erreicht. Erst vor wenigen Wochen wurde der OMat24-Datensatz veröffentlicht, der mehr als 110 Millionen DFT-Berechnungsergebnisse mit Schwerpunkt auf struktureller und kompositorischer Vielfalt enthält und neue hochwertige „Rohmaterialien“ für das Modelltraining bereitstellt.
Tatsächlich gibt es im Bereich der Kristallmaterialerzeugung neben den in diesem Artikel erwähnten LLM- und Rauschunterdrückungsmodellen mehrere andere Methoden, wie etwa die Materialerzeugung auf Basis von Generative Adversarial Networks (GANs), die Materialerzeugung auf Basis von Variational Autoencoders (VAEs), die Materialerzeugung auf Basis von Graph Neural Networks (GNNs) und so weiter.
Im Jahr 2018 kombinierten die Universität Paris Est und die Sorbonne-Universität zwei domänenübergreifende GAN-Module, um CrystalGAN vorzuschlagen.Erwähnenswert ist, dass CrystalGAN bei der Entdeckung von Wasserstoffspeichermaterialien eingesetzt wurde und damit seine Wirksamkeit bei der Lösung realer Herausforderungen in den Bereichen Chemie und Materialwissenschaft unter Beweis gestellt hat.
Die zugehörige Forschung wurde im ICLR 2019 unter dem Titel „CrystalGAN: Lernen, kristallografische Strukturen mit generativen kontradiktorischen Netzwerken zu entdecken“ veröffentlicht.
Papieradresse:
https://openreview.net/pdf?id=SyEGUi05Km
Im Jahr 2021 schlug das MIT Computer and Artificial Intelligence Laboratory CD-VAE vor.Es erfasst die physikalische induktive Tendenz der Materialstabilität, indem es die Datenverteilung stabiler Materialien lernt. Die zugehörige Forschung wurde auf der ICLR 2022 unter dem Titel „Crystal Diffusion Variational Autoencoder for Periodic Material Generation“ veröffentlicht.
Papieradresse:
https://openreview.net/forum?id=03RLpj-tc_
Im Jahr 2023 veröffentlichten die Chulalongkorn-Universität in Thailand und das Thailand Center of Excellence in Physics DP-CDVAE basierend auf der Forschung zu CD-VAE. Bei vergleichbarer Leistung wie CD-VAE weist DP-CDVAE erhebliche Vorteile hinsichtlich Energiegenauigkeit, Erzeugungsleistung und Gittererzeugungsqualität auf.
Die entsprechende Forschung wurde in Nature unter dem Titel „Diffusion probabilistic models enhance variational autoencoder for crystal structure generative modeling“ veröffentlicht.
Papieradresse:
https://www.nature.com/articles/s41598-024-51400-4
Im Jahr 2023 veröffentlichte das Google DeepMind Materials Team GNoME, ein Graph-Neuralnetzwerkmodell zur Materialerkundung.Innerhalb kurzer Zeit wurden 2,2 Millionen neue Kristalle entdeckt (das entspricht dem von Wissenschaftlern in fast 800 Jahren angesammelten Wissen). 380.000 dieser neuen Kristalle wiesen eine stabile Struktur auf und stellten damit die wahrscheinlichsten neuen Materialien dar, die experimentell synthetisiert und eingesetzt werden könnten.
In diesem Jahr haben Forscher der Tohoku-Universität und des MIT auch das auf der GNN-Methode basierende GNNOpt-Modell vorgeschlagen.Die erfolgreiche Identifizierung von 246 Materialien mit einer Solarenergieumwandlungseffizienz von über 32% und 296 Quantenmaterialien mit hohem Quantengewicht hat die Entdeckung von Energie- und Quantenmaterialien erheblich beschleunigt.
Die relevanten Forschungsergebnisse gehen weit darüber hinaus. Auf dem Gebiet der Herstellung von Kristallmaterialien sind wir Zeugen einer blühenden Szene, in der „hundert Denkschulen miteinander konkurrieren“. Angesichts fortschreitender Forschung haben wir Grund zu der Annahme, dass diese innovativen Methoden und Theorien Schlüssellösungen für globale Herausforderungen in Bereichen wie Energie, Umwelt und Gesundheit bieten werden.
