300%により安定した材料生成効率が向上! Meta FAIR がマテリアル生成モデル FlowLLM をリリース、データセットは 450,000 を超えるマテリアルをカバー

特色图像

結晶材料は、原子、イオン、分子構造が規則的に配列された材料の一種であり、産業や技術において重要な役割を果たしています。

ただし、結晶材料の生成および設計プロセスは単純ではなく、通常は離散変数と連続変数の組み合わせを同時に考慮する必要があります。離散変数は材料の基本フレームワーク (原子の種類や初期格子構造など) を定義しますが、連続変数を使用すると、この基本フレームワーク内での微調整と最適化が可能になり、最終的に特定の物理的および化学的特性を持つ結晶材料を生成できます。

AI技術を学際的に応用することで、モデル内で離散変数と連続変数を効果的に組み合わせて高品質の結晶材料生成効果を得る方法は、結晶材料生成の分野における中心的な問題となっています。

自己回帰大規模言語モデル (LLM) やノイズ除去モデル (ノイズ除去拡散モデルやフロー マッチング モデルなど) を含む既存の手法は、この分野で一定の成功を収めていますが、それらにはすべて独自の限界があります。

具体的には、LLM は離散値のモデリングに優れており、特に原子タイプなどの離散要素の処理に優れていますが、格子の形状や原子間の位置を正確に記述するのに苦労しています。ノイズ除去モデルは、連続変数の処理においてより多くの利点があり、結晶構造の等分散性をより適切に維持できますが、原子の種類などの離散要素のモデリングにおいて障害に直面します。

これに基づいて、Meta の FAIR 研究室とアムステルダム大学はマテリアル生成モデル FlowLLM をリリースしました。大規模言語モデル (LLM) とリーマン フロー マッチング (RFM) を組み合わせた新世代のモデルで、以前のモデルと比較して安定したマテリアルの生成効率が 300% 以上向上し、SUN マテリアルの生成効率も向上しました。 50% については、自然言語を通じてプロンプトを表示する LLM の機能を保持しています。

※SUN材料とは、材料科学分野におけるAI技術により生み出される、安定性、ユニーク性、新規性を備えた材料のことです。この概念は、MatterGen モデルについて議論する際に Microsoft によって提案されました。

「FlowLLM: 基本ディストリビューションとして大規模言語モデルを使用したマテリアル生成のためのフロー マッチング」と題された関連研究は、プレプリント Web サイト arXiv にアップロードされ、NeurIPS 2024 に受理されました。

研究のハイライト:
* FlowLLM は LLM と RFM を組み合わせ、離散モデリングと連続モデリングの間のギャップを効果的に橋渡しし、安定したユニークな新規材料の生成効率を大幅に向上させます。 

* FlowLLM は、新規で安定した材料の生成において CD-VAE、DiffCSP、FlowMM、CrystalLLM および他のモデルよりも大幅に優れており、その安定率は以前の最高のモデルよりも約 300% 高く、SUN 率は約 50% 高くなります。

用紙のアドレス:
https://arxiv.org/pdf/2410.23405

公式アカウントをフォローし、バックグラウンドで「FlowLLM」と返信すると、完全な PDF が表示されます

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

データセット: 45,231 個のマテリアルが含まれており、モデルトレーニングは MP-20 データセットで実行されます。

FlowLLM モデルは、無機結晶材料データ セット MP-20 でトレーニングされます。 MP-20には45,231の素材が含まれており、これはマテリアルズ プロジェクトのサブセットであり、準安定と考えられる最大 20 個の原子が含まれています。

まず、研究者らは MP-20 データセットを使用して LLM を独自にトレーニングし、LoRA (低ランク アダプター) メソッドを使用して PyTorch と Transformers で微調整しました。その後、研究者らは微調整された LLM (重量凍結) をベース分布として使用し、MP-20 データセットをターゲット分布として使用して、RFM モデルをさらにトレーニングしました。

相補的な利点: LLM + RFM の 2 つの主要なモデルを組み合わせて、時代の要求に応じて新しい生成モデル FlowLLM が登場しました。

FlowLLM は、大規模言語モデル (LLM) とリーマン フロー マッチング (RFM) モデルを組み合わせた新しい生成モデルです。これは、以前の研究のさらなる研究に基づいており、LLM と RFM を創造的に組み合わせています。

使用されるLLMは、今年2月にMeta FAIRとニューヨーク大学によって発表された「Fine-Tuned Language Models Generate Stable Inorganic Materials as Text」の結果からのもので、この研究により、Fine-tuned LLM (LLaMA-2 70B)が優れていることが証明されました。準安定無機材料の生成予測では、最先端材料の成功率は競合拡散モデル CDVAE の約 2 倍です。

用紙のアドレス:
https://arxiv.org/abs/2402.04379

FlowMM は、Meta FAIR とアムステルダム大学が今年 6 月に発表した成果「FlowMM: Generating Materials with Riemannian Flow Matching」に由来しており、生成モデルとして、FlowMM は安定した材料を見つける際に以前のオープンソース手法よりも 3 倍効率的です。

用紙のアドレス:
https://arxiv.org/abs/2406.04713

以下の図に示すように、研究者らはまず、微調整された LLM を使用して、無条件クエリを通じて初期マテリアル表現を生成 (プロンプト) しました。次に、RFM モデルは材料を繰り返し変換し、原子の位置と格子パラメータを更新します。 RFM では、原子の種類は変更されないことに注意してください。

FlowLLM モデルのアーキテクチャ

研究者らは、2 つのモデルを組み合わせることで補完的な利点が得られる可能性があると指摘しました。一方では、LLM は RFM に優れた学習ベースのディストリビューションを提供します。LLM の出力分布は、一般的に使用される一様基本分布の代わりに、RFM の学習された基本分布として使用されます。 LLM はマテリアル データでトレーニングされているため、学習されたベース分布はターゲット分布に近くなり、RFM との統合が大幅に簡素化されます。
* フロー モデル (RFM など) では、基本分布はモデルがサンプルを生成する開始分布です。基礎となる分布を学習すると、データの真の構造とパターンがより正確に把握されます。特に複雑なデータ (材料設計における結晶構造など) を扱う場合、基本的な分布を学習すると、生成されるサンプルの品質とモデルのパフォーマンスを効果的に向上させることができます。

一方、RFM は LLM の出力を最適化します。LLM は、連続値を扱う場合の精度が限られているため、マテリアルの近似表現を生成します。 RFM は、反復的なノイズ除去を通じてこの近似を最適化し、より正確な表現を実現します。

優秀:モデル安定材料生成効率が 300% 増加、SUN 材料生成効率が 50% 増加

モデルのパフォーマンスをテストするために、研究者らは FlowLLM モデルを CD-VAE モデル (変分オートエンコーダと拡散モデルのハイブリッド モデル)、DiffCSP モデル (拡散モデル)、FlowMM モデル (リーマン流マッチング モデル)、および CrystalLLM と比較しました。モデル (材料の連続的に微調整された LLaMA-2 モデル) が比較され、各モデルが 10,000 の新しい構造を生成できるようになりました。

性能比較では、研究者が注目する主な指標は安定率(Stability rate)とSUN率(SUN rate)です。具体的には、安定性は、生成された材料中の熱力学的に安定な材料の割合を指し、合成可能性の重要な指標です。SUN 率は、安定した独自の新規材料の割合を指します。結果を以下に示します。

モデルマテリアル生成性能比較

安定性とSUN率の面では、FlowLLM モデルによって生成された材料のうち、熱力学的に安定した材料の割合は 17.82% で、SUN レートは 4.92% に達します。論文で紹介された研究チームは、以前の最適モデルと比較して、FlowLLM の安定率は 300% 増加し、SUN 率は 50% 増加しました。

Ehull 値は、材料の安定性と合成可能性を測定するための重要なパラメーターの 1 つです。特定の材料構造において、Ehull 値がゼロに近い場合、その材料はかなり安定しており、合成が容易であることを意味します。実際のプロセスでは存在します。 Ehull 値が高いほど、材料の安定性が低く、合成がより困難であることを示している可能性があります。

FlowLLM によって生成された材料の安定性と合成可能性をさらにテストするために、研究者らは、以下の図に示すように、FlowLLM によって生成された材料の Ehull 値を既存のモデルと比較しました。点線は熱力学的安定性の閾値 (Ehull = 0) を表し、赤は FlowLLM モデルを、青は CD-VAE を表します。 、DiffCSP、およびFlowMM。

他のモデルと比較して、FlowLLM はより低い Ehull 値でより多くのマテリアルを生成できることがわかります。つまり、FlowLLMで生成される材料の安定性と合成性は他のモデルに比べて高いです。

モデルEhull値の比較

さらに、研究者らはモデルの N 値を評価しました。 N 値は、材料内のさまざまな要素タイプの数を指します。N 値が大きいほど、材料の複雑さが増し、合成がより困難になります。以下の図に示すように、研究者はさまざまなモデルの N 値の分布を比較しました。結果は、拡散モデルと比較して、FlowMM と FlowLLM がデータ分布によりよく適合していることを示しています。これは、材料データをフィッティングするプロセス中に、FlowMM モデルと FlowLLM モデルが材料の固有の構造と分布特性をより適切に捉えることができます。

モデルの N 値比較

最後に、研究者らはモデルの RFM 統合ステップに関する比較分析も実行しました。以下に示すように、数百または数千の統合ステップを必要とする拡散およびフローマッチングモデルと比較して、FlowLLM は、わずか 50 ステップで収束できます。

FlowLLM と FlowMM の統合手順の比較

結晶材料生成分野で「百家争鳴」

材料科学研究の分野では、メタの FAIR 研究室は最近、高い生産性の段階に入りました。ほんの数週間前、OMat24 データセットがリリースされました。これには、構造的および組成的多様性に焦点を当てた 1 億 1,000 万件を超える DFT 計算結果が含まれており、モデル トレーニングに新しい高品質の「原材料」を提供します。

クリックして詳細なレポートを表示します。元素の周期表をほぼ網羅しています。 Meta が 1 億 1,000 万件の DFT 計算結果を含むオープンソースの OMat24 データセットをリリース

実際、結晶マテリアル生成の分野では、この記事で説明した LLM とノイズ除去モデルに加えて、敵対的生成ネットワーク (GAN) に基づくマテリアル生成、変分オートエンコーダー (VAE) ベースのマテリアル生成など、他のいくつかの方法があります。マテリアル生成、グラフ ニューラル ネットワーク (GNN) ベースのマテリアル生成など。

2018 年、パリ東大学とソルボンヌ大学は 2 つのクロスドメイン GAN モジュールを結合し、CrystalGAN を提案しました。特に、CrystalGAN は水素貯蔵材料の発見に実際に応用されており、実際の化学および材料科学の課題を解決する上での有効性が実証されています。

関連する研究は、「CrystalGAN: Learning to Discover Crystallographic Structures with Generative Adversarial Networks」というタイトルで ICLR 2019 に掲載されました。

用紙のアドレス:
https://openreview.net/pdf?id=SyEGUi05Km

2021 年に、MIT コンピューターおよび人工知能研究所は CD-VAE を提案しました。安定した材料のデータ分布を学習することで、材料の安定性における物理的な誘導バイアスを捕捉します。関連する研究は「周期的材料生成のための結晶拡散変分オートエンコーダ」というタイトルで、ICLR 2022 で発表されました。

用紙のアドレス:
https://openreview.net/forum?id=03RLpj-tc_

2023年、タイのチュラロンコン大学とタイ物理学センターはCD-VAEの研究に基づいてDP-CDVAEを発表した。 DP-CDVAE は、CD-VAE と同等のパフォーマンスを維持しながら、エネルギー精度、生成パフォーマンス、格子生成品質の点で大きな利点を示します。

関連する研究は「拡散確率モデルが結晶構造生成モデリングのための変分オートエンコーダーを強化する」というタイトルで、Nature に掲載されました。

用紙のアドレス:
https://www.nature.com/articles/s41598-024-51400-4

2023 年、Google DeepMind マテリアル チームは、マテリアル探索用のグラフ ニューラル ネットワーク モデル GNoME をリリースしました。短期間に 220 万個の新しい結晶が発見され (人間の科学者によるほぼ 800 年分の知識の蓄積に相当)、そのうち 38 万個の新しい結晶は安定した構造を持ち、実験的に合成され実用化される可能性が最も高い潜在的な新材料となっています。使用に入る。

クリックして詳細なレポートを読む: 人類より 800 年先を行く? DeepMind が GNoME をリリース、深層学習を使用して 220 万個の新しい結晶を予測

今年、東北大学とマサチューセッツ工科大学の研究者らも、GNN 手法に基づく GNNOpt モデルを提案しました。32%の太陽エネルギー変換効率を超える246種類の材料と、高い量子重みをもつ296種類の量子材料の特定に成功し、エネルギー・量子材料の発見が大幅に加速した。

クリックして詳細レポートを表示: 944 の材料データに基づいて、東北大学と MIT が GNNOpt モデルをリリースし、数百の太陽電池および量子候補材料の特定に成功

関連する研究成果は、これをはるかに超えて、結晶材料生成の分野で「百派の争い」の隆盛を目の当たりにしています。研究が深まるにつれ、これらの革新的な方法と理論がエネルギー、環境、健康の分野における地球規模の課題に対する重要な解決策を提供すると信じる理由ができました。