HyperAI

Deckt Fast Das Periodensystem Der Elemente Ab! Meta Veröffentlicht Open-Source-OMat24-Datensatz Mit 110 Millionen DFT-Berechnungsergebnissen

特色图像

Da die weltweite Nachfrage nach erneuerbarer Energie weiter steigt, gewinnt die Energiespeichertechnologie als Lösung, mit der Energie gespeichert und bei Bedarf wieder abgegeben werden kann, immer mehr an Bedeutung. Allerdings sind viele Speichertechnologien für erneuerbare Energien mit hohen Anfangsinvestitionen verbunden, schwierig zu betreiben und zu warten und befinden sich noch immer in der Forschungs- und Entwicklungs- bzw. Demonstrationsphase.

In Anbetracht dessenIm Jahr 2020 starteten das damals noch nicht umbenannte Facebook Artificial Intelligence Research Lab (FAIR) und die Carnegie Mellon University gemeinsam das Open Catalyst Project.Ziel ist es, mithilfe von KI neue Katalysatoren für die Speicherung erneuerbarer Energien zu entdecken. Zusammen mit der Veröffentlichung dieses Projekts hat das Forschungsteam den Katalysatorsimulationsdatensatz OC20 herausgebracht.

Downloadadresse für den OC20-Datensatz:
https://go.hyper.ai/dYeNS
Im Jahr 2022 erweiterte das Forschungsteam den Open Catalyst 2022 (OC22)-Datensatz und veröffentlichte ihn auf Grundlage des OC20-Datensatzes, wodurch das Modelltraining präziser wurde.
OC22-Datensatz-Downloadadresse
https://go.hyper.ai/9FhFL

Vor Kurzem ist Meta erneut ein Durchbruch auf dem Gebiet der Materialwissenschaften gelungen: Es wurden der umfangreiche Open-Source-Datensatz „Open Materials 2024“ (OMat24) und eine Reihe unterstützender vortrainierter Modelle veröffentlicht. Der OMat24-Datensatz enthält mehr als 110 Millionen Berechnungsergebnisse der Dichtefunktionaltheorie (DFT) mit Schwerpunkt auf struktureller und kompositorischer Vielfalt. Das vortrainierte Modell wird mit dem Modell EquformerV2 (eqV2) trainiert, wobei das Modell eqV2-M auf der Matbench Discovery-Bestenliste eine hochmoderne Leistung erzielt und in der Lage ist, die Stabilität des Grundzustands und die Formationsenergie vorherzusagen, wodurch ein neuer Maßstab für die Vorhersage der Materialstabilität gesetzt wird.

Forschungshighlights:
* Der OMat24-Datensatz basiert auf Open-Source-Datensätzen wie MPtrj, Materials Project und Alexandria. Die im Datensatz enthaltenen Elemente decken nahezu das gesamte Periodensystem ab. 

* Die vortrainierten Modelle sind in drei Größen verfügbar: eqV2-S, eqV2-M und eqV2-L. Das eqV2-M-Modell hat einen F1-Score von 0,916 auf der Matbench Discovery-Bestenliste, mit einem mittleren absoluten Fehler von nur 20 meV/Atom


Papieradresse:
https://arxiv.org/pdf/2410.12771
Folgen Sie dem offiziellen Konto und antworten Sie mit „OMat24“, um das vollständige Dokument als PDF zu erhalten.

Downloadadresse für den OMat24-Datensatz:
https://go.hyper.ai/gALHP

Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:

https://github.com/hyperai/awesome-ai4s

Der OMat24-Datensatz enthält mehr als 110 Millionen DFT-Berechnungsergebnisse, die verschiedene Atomkonfigurationen abdecken.

Der OMat24-Datensatz ist einer der größten Open-Source-Datensätze, der derzeit zum Trainieren von DFT-Substitutionsmodellen von Materialien verwendet wird.Der Datensatz besteht aus DFT-Einzelpunktberechnungen, Strukturrelaxationen und molekulardynamischen Trajektorien für eine Reihe anorganischer Massenmaterialien.Insgesamt berechneten die Forscher etwa 118 Millionen Strukturen, die mit Gesamtenergie, Kräften (Kräftenorm) und Einheitszellenspannung (Spannung) versehen waren, und verbrauchten dafür mehr als 400 Millionen Kernstunden an Rechenressourcen.

Diese Strukturen wurden mithilfe von drei Techniken erzeugt: Boltzmann-Sampling von gerüttelten Strukturen, Ab-initio-Molekulardynamik (AIMD) und Relaxationen von gerüttelten Strukturen.

Überblick über die Generierung von OMat24-Datensätzen, Anwendungsbereiche und Sampling-Strategien

Der OMat24-Datensatz verfügt über ein breites Spektrum an Energie-, Kraft- und Spannungsverteilungen. Die folgende Abbildung zeigt die Verteilung der Gesamtenergie (ausgedrückt in eV/Atom), der Kräfte (ausgedrückt in eV/A) und der Spannung (ausgedrückt in GPa) für den OMat24-Datensatz, den MPtrj-Datensatz und den Alexandria-Datensatz.

* Der MPtrj-Datensatz (Materials Project Trajectory Dataset) enthält DFT-Berechnungsergebnisse für mehr als 1,5 Millionen anorganische Strukturen. Aufgrund seines großen Umfangs und seiner Vielfalt hat es einen wichtigen Anwendungswert in den Bereichen Materialwissenschaft und computergestützte Materialwissenschaft. 

* Der Alexandria-Datensatz ist eine Datenbank der Quantenchemie, die eine große Menge an Daten zu Moleküleigenschaften für die Entwicklung von Kraftfeldern und die Entwicklung und Auswertung von Dichtefunktionen bereitstellt.

Die orange gepunktete Linie stellt den MPtrj-Datensatz dar, die blaue gepunktete Linie den Alexandria-Datensatz und die grüne durchgezogene Linie den OMat24-Datensatz.

Es ist ersichtlich, dass die Energieverteilung des OMat24-Datensatzes etwas höher ist als die des als Eingabestruktur verwendeten Alexandria-Datensatzes und deutlich höher als die des MPtrj-Datensatzes. Die Kraft- und Elementarzellenspannungsverteilung des OMat24-Datensatzes ist viel höher als die der MPtrj- und Alexandria-Datensätze.

Es ist erwähnenswert, dass die im OMat24-Datensatz enthaltenen Elemente fast das gesamte Periodensystem abdecken.Wie in der folgenden Abbildung dargestellt:

Verteilung der Elemente im OMat24-Datensatz

Obwohl der OMat24-Datensatz Vorteile gegenüber anderen Datensätzen hat, wiesen die Forscher auch darauf hin, dass der Datensatz immer noch Einschränkungen aufweist. Dieser Datensatz basiert auf DFT-Berechnungen auf den Ebenen PBE und PBE+U. Es enthält nur periodische Volumenstrukturen und berücksichtigt nicht die wichtigen Auswirkungen von Punktdefekten, Oberflächen, nichtstöchiometrischen Verhältnissen und niedrigdimensionalen Strukturen. Daher gibt es inhärente Näherungsfehler, diese Fehler wurden jedoch in anderen Funktionalen bis zu einem gewissen Grad behoben.

Wie in der folgenden Abbildung dargestellt, verglichen die Forscher die Berechnungsergebnisse im WBM-Datensatz mit den Einzelpunktberechnungsergebnissen unter Verwendung der OMat24-DFT-Einstellung und stellten fest, dass der durchschnittliche absolute Fehler zwischen den beiden 52,25 meV/Atom betrug.
* Der WBM-Datensatz ist eine groß angelegte rechnergestützte Materialdatenbank, die die elektronische Struktur und die thermodynamischen Eigenschaften einer großen Anzahl von Materialien enthält, die mithilfe der DFT berechnet wurden, wie etwa Bildungsenergie, Entropieänderung, spezifische Wärmekapazität usw.

Schematische Darstellung zum Vergleich der Berechnungsergebnisse des WBM-Datensatzes mit den Einzelpunktberechnungsergebnissen der OMat24-DFT-Einstellung

Unter Verwendung von EquformerV2 als Modellarchitektur wird das Modelltraining auf der Grundlage von drei Hauptdatensätzen durchgeführt

Die Forscher verwendeten den OMat24-Datensatz zusammen mit dem MPtrj-Datensatz und dem Alexandria-Datensatz, um das Modell zu trainieren.Da der Alexandria-Datensatz und der zum Testen verwendete WBM-Datensatz ähnliche Strukturen aufweisen, haben die Forscher den Alexandria-Datensatz für das Training unterabgetastet, um sicherzustellen, dass zwischen dem Trainingsdatensatz und dem Testdatensatz keine Auslassungen auftreten.

Zunächst erstellten die Forscher eine neue Teilmenge von Alexandria (sAlexandria), indem sie alle Teile entfernten, die den ursprünglichen und entspannten Strukturen der WBM entsprachen. Um den Datensatz zu reduzieren, entfernten die Forscher Strukturen mit einer Gesamtenergie > 0 eV, einer Kraftnorm > 50 eV/Å und einer Spannung > 80 GPa. Schließlich wurden nur Strukturen mit Energieunterschieden größer als 10 meV/Atom in den verbleibenden Trajektorien abgetastet. Die resultierenden Datensätze für Training und Validierung enthalten 10 Millionen bzw. 500.000 Strukturen.

Für die Modellarchitektur wählten die Forscher EquiformerV2, das derzeit das leistungsstärkste Modell in den Bestenlisten OC20, OC22 und ODAC23 ist.

Für das Modelltraining untersuchten die Forscher drei Strategien:

* EquiformerV2-Modell nur auf dem OMat24-Datensatz trainiert, mit und ohne Rauschunterdrückungs-Erweiterungsziele. Diese Modelle haben die größte physikalische Bedeutung, da sie nur auf Datensätze anwendbar sind, die im Vergleich zum alten Materials Project-Setup signifikante Aktualisierungen der zugrunde liegenden Pseudopotentiale enthalten.

* EquiformerV2-Modelle, die nur auf dem MPtrj-Datensatz trainiert wurden, mit und ohne das Ziel der Rauschunterdrückung, können für den direkten Vergleich mit der Matbench Discovery-Bestenliste verwendet werden (als konforme Modelle gekennzeichnet).

* Weitere Feinabstimmung von OMat24 oder OC20 auf den kombinierten Datensätzen MPtrj oder sAlexandria, um das EquiformerV2-Modell zu trainieren und es zum leistungsstärksten Modell auf der Matbench Discovery-Bestenliste zu machen (als nicht konformes Modell markiert).

Die folgende Tabelle zeigt die Gesamtzahl der Parameter und den Inferenzdurchsatz von Modellen, die auf der EquiformerV2-Architektur und Modellen mit unterschiedlichen Spezifikationen trainiert wurden:

Unterschiedliche Vorgaben für das Modelltraining

Das auf EquiformerV2 trainierte Modell schneidet im Matbench-Discovery-Ranking am besten ab

Die Forscher verwendeten den Matbench-Discovery-Benchmark, um das EquiformerV2-Modell zu bewerten, und die Ergebnisse zeigten, dass sowohl die konformen (nur mit MPtrj trainierten) als auch die nicht konformen (mit zusätzlichen Daten trainierten) Modelle eine gute Leistung zeigten.Das Modell EquiformerV2 erzielte die beste Leistung auf der Bestenliste (F1-Score ist der wichtigste Bewertungsindikator).

Die folgende Abbildung zeigt die Leistung anderer nicht konformer Modelle auf der Matbench-Discovery-Bestenliste.

Bildquelle: Offizielle Website von Matbench-Discovery

Die Ergebnisse zeigen, dass das eqV2-M-Modell einen F1-Score von 0,916, einen mittleren absoluten Fehler (MAE) von 20 meV/Atom und einen quadratischen Mittelwertfehler (RMSE) von 72 meV/Atom aufweist und damit einen neuen Maßstab für die Vorhersage der Materialstabilität setzt.

Darüber hinaus liefert das ausschließlich auf dem MPtraj-Datensatz trainierte EquiformerV2-Modell dank effektiver Datenerweiterungsstrategien wie der Rauschunterdrückung von Nichtgleichgewichtsstrukturen (DeNS) ebenfalls gute Ergebnisse. Wie aus der obigen Tabelle ersichtlich ist, übertrifft das auf Basis des OMat24-Datensatzes vortrainierte Modell das herkömmliche Modell hinsichtlich der Genauigkeit, insbesondere beim Umgang mit unausgeglichenen Konfigurationen.

Open Source wird zum Beschleuniger für die Integration von Materialwissenschaft und KI

Im heutigen datengesteuerten Zeitalter verändert die KI mit ihrer beispiellosen Geschwindigkeit und Genauigkeit das Forschungsparadigma der Materialwissenschaften. Insbesondere Open-Source-KI-Wissen, -Tools und -Daten rund um die Materialwissenschaften werden mehr Forschern, Entwicklern und sogar Enthusiasten die Möglichkeit geben, am Innovationsprozess teilzunehmen und gemeinsam die Entwicklung der Materialwissenschaften voranzutreiben.

Bezüglich der Veröffentlichung des Open-Source-Datensatzes OMat24 und seines Modells,Max Welling, Experte für maschinelles Lernen und leitender Wissenschaftler bei Microsoft Research, sagte in den sozialen Medien: „Ich bin besonders begeistert vom neuen OMat24-Datensatz, der ein neues Kraftfeld-Grundlagenmodell für maschinelles Lernen auf SOTA-Ebene hervorgebracht hat.“

Tatsächlich veröffentlichte das Berkeley National Laboratory (LBNL) der Vereinigten Staaten bereits 2011 das Materials Project.Dieser Datensatz enthält eine große Menge an Rechendaten zu anorganischen Materialien, wie etwa Kristallstruktur, elektronische Struktur und thermodynamische Eigenschaften, und ist zu einer wichtigen Datenquelle für die aktuelle Materialforschung geworden.
Papieradresse:
https://go.hyper.ai/KExvK

Downloadadresse für den Datensatz des Materials Project:

https://go.hyper.ai/BOQS0

Ein weiteres Beispiel ist die Northwestern University in den USA, die 2013 den Open-Source-Quantenmaterialdatensatz OQMD veröffentlichte.Es enthält die berechneten Ergebnisse der thermodynamischen und strukturellen Eigenschaften von 1.226.781 Materialien und wird häufig für Hochdurchsatz-DFT-Analysen verschiedener Materialanwendungen verwendet.
Papieradresse:
https://www.nature.com/articles/npjcompumats201510

Downloadadresse für den OQMD-Datensatz:
https://go.hyper.ai/X4fE5

Im Jahr 2018 veröffentlichte das Massachusetts Institute of Technology (MIT) das CGCNN-Modell.Dieses Modell wird häufig in der Materialwissenschaft verwendet und sagt Materialeigenschaften wie etwa die Bandlücke, den Magnetismus und die thermodynamische Stabilität kristalliner Materialien durch Graph-Neural-Networks voraus.
Papieradresse:
https://arxiv.org/pdf/1710.10324

Im Jahr 2020 veröffentlichte das National Institute of Standards and Technology (NIST) die Open-Source-Plattform JARVIS.Konzentrieren Sie sich auf die Vorhersage von Materialeigenschaften und elektronischer Struktur. JARVIS-ML ist das Modul für maschinelles Lernen, das umfangreiche Datensätze und auf maschinellem Lernen basierende Material-Screening-Tools bereitstellt, DFT, molekulardynamische Simulation und maschinelles Lernen unterstützt und Forschern dabei helfen kann, neue Materialien schnell zu screenen und zu entdecken.
Papieradresse:
https://arxiv.org/abs/2007.01831

Im Jahr 2021 veröffentlichte NIST das ALIGNN-Modell.Dieses Modell kann die Genauigkeit der Vorhersage von Materialeigenschaften effektiv verbessern, indem es Liniendiagramme einführt, um die komplexen Wechselwirkungen zwischen Atomen zu erfassen.
Papieradresse:
https://www.nature.com/articles/s41524-021-00650-1

Es ist ersichtlich, dass Open Source vom Hochdurchsatz-Screening bis zum automatisierten Materialdesign zu einem wichtigen Beschleuniger für die Förderung der Integration von Materialwissenschaft und KI geworden ist und die Materialwissenschaft in eine neue Ära größerer Intelligenz und Effizienz führt.

Quellen:

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/