元素の周期表をほぼカバーしています。 Meta が 1 億 1,000 万件の DFT 計算結果を含むオープンソースの OMat24 データセットをリリース

特色图像

再生可能エネルギーに対する世界的な需要が高まるにつれ、エネルギーを貯蔵し、必要なときに放出できるソリューションとして、エネルギー貯蔵技術への注目が高まっています。しかし、多くの再生可能エネルギー貯蔵技術は、初期投資コストが高く、運用・保守が困難であり、まだ研究開発や実証の段階にあります。

これを考慮して、当時はまだ名前を変更していなかった Facebook 人工知能研究所 (FAIR) は、カーネギーメロン大学と提携して、2020 年に Open Catalyst プロジェクトを立ち上げました。目標は、AI を使用して再生可能エネルギー貯蔵のための新しい触媒を発見することです。このプロジェクトのリリースに合わせて、研究チームは触媒シミュレーション データセット OC20 を開始しました。

OC20 データセットのダウンロード アドレス:
https://go.hyper.ai/dYeNS
2022 年、研究チームは OC20 データセットに基づいて Open Catalyst 2022 (OC22) データセットを拡張して発売し、モデル トレーニングの精度を高めました。
OC22 データセットのダウンロード アドレス
https://go.hyper.ai/9FhFL

最近、Meta は材料科学の分野で再び新たな進歩を遂げ、Open Materials 2024 (OMat24) 大規模なオープンソース データ セットとサポートする事前トレーニング モデルのセットをリリースしました。 OMat24 データセットには、構造および組成の多様性に焦点を当てた 1 億 1,000 万を超える密度汎関数理論 (DFT) 計算の結果が含まれています。事前トレーニングされたモデルは EquformerV2 (eqV2) モデルを使用してトレーニングされます。このうち eqV2-M モデルは Matbench Discovery ランキングで最も高度なレベルに達しており、基底状態の安定性と地層エネルギーを予測でき、材料予測の新しいベンチマークを設定します。安定性。 。

研究のハイライト:
* OMat24 データセットは、MPtrj、 Materials Project、Alexandria などのオープンソース データセットに基づいて構築されており、データセットに含まれる元素は、元素の周期表のほぼ全体をカバーしています。 

※ 事前トレーニングモデルには eqV2-S、eqV2-M、eqV2-L の 3 つのモデルサイズがあり、このうち eqV2-M モデルは Matbench Discovery ランキングでの F1 スコアが 0.916 で、平均絶対誤差は です。わずか20meV/原子です。


用紙のアドレス:
https://arxiv.org/pdf/2410.12771
公式アカウントをフォローし、バックグラウンドで「OMat24」に返信すると、論文全文のPDFが入手できます

OMat24 データセットのダウンロード アドレス:
https://go.hyper.ai/gALHP

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

OMat24 データセットには、さまざまな原子構成をカバーする 1 億 1,000 万を超える DFT 計算結果が含まれています

OMat24 データセットは、マテリアル上で DFT サロゲート モデルをトレーニングするために現在使用されている最大のオープンソース データセットの 1 つです。データセットは、一連の DFT 単一点計算、無機バルク材料の構造緩和および分子動力学軌跡で構成されます。研究者らは合計で、4 億コア時間以上のコンピューティング リソースを使用して、総エネルギー、力のノルム、および単位セル応力がラベル付けされた約 1 億 1,800 万の構造を計算しました。

これらの構造は、ガラガラ構造のボルツマン サンプリング (ガラガラ構造のサンプリング)、非経験的分子動力学 (AIMD)、およびガラガラ構造の緩和の 3 つの手法によって生成されます。

OMat24 データセット生成、アプリケーション分野、サンプリング戦略の概要

OMat24 データセットには、広範囲のエネルギー、力、応力の分布が含まれています。以下の図は、OMat24 データセット、MPtrj データセット、および Alexandria データセットの総エネルギー (単位: eV/原子)、力 (単位: eV/A)、および応力 (単位: GPa) の分布を示しています。

※ MPtrj データセット(材料プロジェクト軌跡データセット)には、150 万以上の無機構造の DFT 計算結果が含まれています。その規模が大きく多様性があるため、材料科学および計算材料科学の分野で重要な応用価値があります。 

*Alexandria Dataset は、力場の開発、密度汎関数の開発および評価のための広範な分子特性データを提供する量子化学データベースです。

オレンジ色の点線は MPtrj データ セットを表し、青色の点線は Alexandria データ セットを表し、緑色の実線は OMat24 データ セットを表します。

OMat24 データセットのエネルギー分布は、入力構造として使用された Alexandria データセットよりわずかに高く、OMat24 データセットの力と単位セル応力分布は MPtrj データセットよりも大幅に高いことがわかります。 MPtrj および Alexandria データ セットよりも高い。

OMat24 データセットに含まれる元素は、元素の周期表をほぼカバーしていることに言及する価値があります。以下に示すように:

OMat24 データセット内の要素の分布

OMat24 データセットは他のデータセットと比べて優れていますが、このデータセットにも限界があるとも研究者らは説明しました。このデータセットは、PBE および PBE+U レベルでの DFT に基づいて計算されており、周期的なバルク構造のみが含まれており、点欠陥、表面、非化学量論比、および低次元構造の重要な影響は考慮されていません。固有の近似誤差ですが、これらの誤差は他の関数である程度考慮されます。

以下の図に示すように、研究者らは WBM データセットの計算結果と OMat24 DFT 設定を使用した単一点計算結果を比較し、2 つの間の平均絶対誤差が 52.25 meV/原子であることを発見しました。
※WBMデータセットとは、DFTを用いて計算された多数の材料の電子構造や熱力学特性データ(形成エネルギー、エントロピー変化、比熱容量など)を収録した大規模計算材料データベースです。

WBMデータセットの計算結果とOMat24 DFT設定のシングルポイント計算結果の比較図

EquformerV2 をモデル アーキテクチャとして使用し、3 つの主要なデータ セットに基づいてモデル トレーニングが実行されます。

研究者らは、モデルのトレーニングに OMat24 データセット、MPtrj データセット、Alexandria データセットを使用しました。アレクサンドリア データセットとテストに使用される WBM データセットには同様の構造が存在するため、研究者らはトレーニング用にアレクサンドリア データセットをサブサンプリングして、トレーニング データセットとテスト データセットの間に欠落がないことを確認しました。

まず、研究者らは、WBM の初期構造と緩和構造に一致するすべての部分を削除し、アレクサンドリアの新しいサブセット (sAlexandria) を作成しました。データセットを絞り込むために、研究者らは総エネルギー > 0 eV、力ノルム > 50 eV/Å、応力 > 80 GPa の構造を削除しました。最後に、残りの軌道でエネルギー差が 10 meV/原子を超える構造のみがサンプリングされました。トレーニングと検証に使用された最終的なデータセットには、それぞれ 1,000 万個と 500,000 個の構造がありました。

モデル アーキテクチャとして、研究者らは EquiformerV2 を選択しました。これは、現在、OC20、OC22、および ODAC23 ランキングで最高のパフォーマンスを誇るモデルです。

モデルのトレーニングについて、研究者は 3 つの戦略を検討しました。

* ノイズ除去拡張目標の有無にかかわらず、OMat24 データセット上でのみ EquiformerV2 モデルをトレーニングします。これらのモデルは、従来のマテリアル プロジェクト設定に関連付けられた基礎となる擬ポテンシャルの大幅な更新を含むデータセットにのみ適しているため、最も強力な物理的意味を持ちます。

* MPtrj データセットのみでトレーニングされた EquiformerV2 モデルは、ノイズ除去拡張ターゲットの有無にかかわらず、Matbench Discovery リーダーボード (準拠モデルとしてマークされている) との直接比較に使用できます。

* MPtrj または sAlexandria 結合データセットで OMat24 または OC20 をさらに微調整して EquiformerV2 モデルをトレーニングし、Matbench Discovery ランキングで最高のパフォーマンスのモデル (非準拠モデルとしてマーク) にします。

次の表は、EquiformerV2 アーキテクチャに基づいてトレーニングされたモデルと、さまざまな仕様のモデルに対応するパラメーターの総数と推論スループットを示しています。

モデルトレーニングの仕様が異なる

EquiformerV2 に基づいてトレーニングされたモデルは、Matbench-Discovery ランキングで最高のパフォーマンスを発揮します

研究者らは、Matbench-Discovery ベンチマークを使用して EquiformerV2 モデルを評価しました。その結果、準拠 (MPtrj を使用してのみトレーニングされた) モデルでも非準拠 (追加データを使用してトレーニングされた) モデルでも、EquiformerV2 モデルは、ランキング リストで最高のパフォーマンスを達成しました (F1 スコアが主な評価指標です)。

以下の図は、Matbench-Discovery ランキングにおける他の非準拠モデルのパフォーマンスを示しています。

画像出典 Matbench-Discovery 公式サイト

結果は、eqV2-M モデルの F1 スコアが 0.916、平均絶対誤差 (MAE) が 20 meV/原子、二乗平均平方根誤差 (RMSE) が 72 meV/原子であり、このモデルの新しいベンチマークを設定していることを示しています。材料の安定性の予測。

さらに、非平衡構造 (DeNS) のノイズ除去などの効果的なデータ拡張戦略のおかげで、MPtraj データセットのみでトレーニングされた EquiformerV2 モデルも良好なパフォーマンスを示しました。上の表からわかるように、OMat24 データセットに基づいて事前トレーニングされたモデルは、特に不均衡な構成を扱う場合、精度の点で従来のモデルよりも優れています。

オープンソースが材料科学と AI の統合のアクセラレータとなる

今日のデータ主導の時代において、AI は前例のないスピードと正確さで材料科学の研究パラダイムを再構築しています。特に、材料科学に関するオープンソースの AI 知識、ツール、データは、より多くの研究者、開発者、さらには愛好家に、イノベーションプロセスに参加し、材料科学の発展を促進するために協力する機会を提供します。

OMat24 オープン ソース データ セットとそのモデルのこのリリースでは、機械学習の第一人者であり、Microsoft Researchの主任科学者であるマックス・ウェリング氏は、ソーシャルプラットフォーム上で、「新しいデータセットOMat24に特に興奮している。これにより、新しいSOTAレベルの機械学習力場の基本モデルが生み出された」と述べた。

実際、2011 年には米国のバークレー国立研究所 (LBNL) がマテリアルズ プロジェクトを発表しました。このデータセットには、無機材料の結晶構造、電子構造、熱力学特性などの計算データが大量に含まれており、現在の材料研究にとって重要なデータリソースとなっています。
用紙のアドレス:
https://go.hyper.ai/KExvK

マテリアル プロジェクト データ セットのダウンロード アドレス:

https://go.hyper.ai/BOQS0

もう 1 つの例は、ノースウェスタン大学が 2013 年にオープンソースの量子材料データセット OQMD をリリースしたことです。1,226,781 の材料の熱力学特性および構造特性の計算結果が含まれており、さまざまな材料アプリケーションのハイスループット DFT 解析に広く使用されています。
用紙のアドレス:
https://www.nature.com/articles/npjcompumats201510

OQMD データ セットのダウンロード アドレス:
https://go.hyper.ai/X4fE5

2018 年、マサチューセッツ工科大学 (MIT) は CGCNN モデルをリリースしました。このモデルは、材料科学で広く使用されており、結晶材料のバンドギャップ、磁性、熱力学的安定性などの材料特性を予測するためにグラフ ニューラル ネットワークを使用します。
用紙のアドレス:
https://arxiv.org/pdf/1710.10324

2020 年、米国標準技術研究所 (NIST) は JARVIS オープンソース プラットフォームをリリースしました。材料特性と電子構造の予測に焦点を当てます。 JARVIS-ML はその機械学習モジュールであり、豊富なデータセットと機械学習ベースの材料スクリーニング ツールを提供し、DFT、分子動力学シミュレーション、機械学習をサポートし、研究者が新しい材料を迅速にスクリーニングして発見するのに役立ちます。
用紙のアドレス:
https://arxiv.org/abs/2007.01831

2021 年に、NIST は ALIGNN モデルをリリースしました。このモデルは折れ線グラフを導入することで原子間の複雑な相互作用を捉え、材料特性の予測精度を効果的に向上させることができます。
用紙のアドレス:
https://www.nature.com/articles/s41524-021-00650-1

ハイスループットのスクリーニングから自動化された材料設計に至るまで、オープンソースは材料科学と AI の統合を促進する重要なアクセラレータとなり、材料科学をよりスマートで効率的な材料の新時代に導いていることがわかります。

参考文献:

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/