HyperAI超神経

コロンビア大学のチームは、初めてナノ結晶のエンドツーエンド分析を実現するためにPXRDnetを提案し、200個の複雑な模擬ナノ結晶の分析に成功した。

特色图像

X 線回折 (XRD) の発見と応用は、結晶学の発展における重要なマイルストーンです。この技術により、結晶の微細構造に対する深い理解が得られ、ひいては材料科学と人類文明全体の進歩が促進されるからです。しかし、従来の方法では、小さな粒子で構成された粉末状のナノ結晶を扱う場合、望ましい結果は得られません。

ナノ結晶のサイズは限られているため(通常1000Å未満)、X 線回折パターンのブラッグピークは明らかな広がりを示しています。その結果、構造情報が著しく劣化し、結晶構造を正確に解明することが非常に困難になります。さらに、実際の状況では純粋な単結晶サンプルを入手することが困難であるため、構造解析の難易度はさらに高まります。ナノ結晶構造の分析もまた、材料科学界を100年にわたって悩ませてきた「1世紀も昔の問題」となっている。

この問題を解決するために、コロンビア大学とスタンフォード大学の研究者は、拡散モデルに基づく生成型人工知能構造解析法 PXRDnet を提案しました。このモデルは、45,229 個の既知の結晶構造をトレーニング データとして使用し、統計的な事前知識を導入します。PXRDnet は、化学式と情報量の少ない限定サイズの広がり粉末回折パターンのみを条件として、さまざまな対称性と複雑さを持つ 200 個のシミュレーション ナノ結晶を正常に分解することができました。7 つの結晶系すべての構造が、サイズ 10 Å まで含まれています。実験結果によれば、このモデルは、リートベルト改良r係数による測定後、平均誤差がわずか7%で、5つの構造候補のうち4つを正常に検証可能に識別できることがわかりました。

関連研究は、「拡散モデルによるナノ結晶粉末回折データからの第一原理構造解析」というタイトルで Nature Materials に掲載されました。

研究のハイライト:

* この成果は、材料科学コミュニティにおけるナノ結晶構造解析の長年の問題を解決し、効率的な人工知能解析ツールを提供し、ナノテクノロジー、バイオメディカル、エネルギー貯蔵、電子デバイスなどの分野で革新的な応用を促進することが期待されます。 

* この方法は、従来の方法の適用範囲の限界を大きく打ち破り、多くの場合、実際の構造に近い候補解を得ることができます。

* この研究では、MP-20-PXRDベンチマークデータセット(材料プロジェクトの20原子未満の安定材料とそのシミュレートされた回折データを含む)を提案し、コードとデータセットを公開して、その後の研究のための統一された標準を提供しました。

用紙のアドレス:
https://go.hyper.ai/r1K6b

Materials Project オンライン材料データベース:
https://go.hyper.ai/2gCe9

データセット: 提案された MP-20-PXRD ベンチマーク データセット

効果的なモデルを得るために、研究者らはPXRDnetのエンドツーエンドのトレーニング用にMP-20-PXRDと呼ばれるベンチマークデータセットを提供しました。

具体的には、研究者らは Materials Project の MP-20 データセットを使用しました。データセットは、単位セル内に最大 20 個の原子を含む Materials Project データベースからサンプリングされた材料で構成されています。その後、研究者らは pymatgen パッケージを使用して、MP-20 のすべての構造の粉末回折パターンをシミュレートしました。

Materials Project オンライン材料データベース:
https://go.hyper.ai/2gCe9

シミュレーションでは、Q範囲が0〜8.1568Å⁻¹のCu Kα放射線を使用しました。

MP-20-PXRD データセットには 45,229 個の材料が含まれています。90%、7.5%、2.5% の比率は、トレーニング、検証、テストに使用されます。 MP-20-PXRD データセットがオープンソース化されていることは特筆に値します。研究者たちは、これを利用して「後発者」に刺激を与え、ナノ結晶構造分析の新しいソリューションをさらに探求してもらいたいと考えています。

モデルアーキテクチャ: CDVAEをベースにPXRD回帰を導入

PXRDnet モデルは、CDVAE アーキテクチャに基づいて設計されています。これは主に、原子ノイズ除去ブランチ、変分オートエンコーダ (VAE) ブランチ、PXRD 回帰器の 3 つの主要なブランチで構成されています。それらは共有ガウス潜在コードを介して接続されています。このアプローチにより、PXRDnet は PXRD パターンと化学式に基づいて適格な材料構造候補を正確に生成できるようになり、ナノ材料構造分析に関する新たな知見が得られます。

PXRDnetのトレーニングプロセス

CDVAEに基づくスケルトン開発

PXRDnet を紹介する際には、前者の作成の基礎となった CDVAE モデルについて言及する必要があります。CDVAE は材料構造生成モデルです。これは変分オートエンコーダとノイズ除去拡散ネットワークにヒントを得たもので、ノイズからデータを解凍することを学習する生成モデルです。

VAE と拡散成分の分解を理解するために、研究者たちは、物質の単位格子が化学組成、原子数、格子パラメータ、原子座標の 4 つの要素で表せることに気付きました。

CDVAE の最初のブランチは、VAE を使用して最初の 3 つのコンポーネントを処理します。エンコーダーはDimeNetで、マテリアルのグラフ表現を潜在表現zにマッピングするSE(3)不変グラフニューラルネットワークです。グラフ表現は、材料の固有の周期性を反映するために有向多重グラフに変更されます。次に研究者らは、カルバック・ライブラー・ダイバージェンス損失を使用して潜在表現 z を多変量ガウス分布に正規化し、z から化学組成、原子番号、格子パラメータをデコードしました。

各予測は、潜在コード z を受け取る個別の結晶パラメータ化多層パーセプトロン (MLP) によって生成されます。z は、後続のモデルの他のすべてのブランチでのマテリアル表現として使用されます。

CDVAE の 2 番目のブランチは、ノイズ除去拡散を利用して、ノイズ調整スコア ネットワークを通じてコンポーネントを処理します。構成原子の数と格子パラメータは固定されていると仮定します。フォワードプロセスでは、多変量ガウスノイズを使用して原子座標と原子種を摂動します。逆プロセスはSE(3)等変グラフニューラルネットワークであるGemNetを使用してパラメータ化されます。このプロセスは、上記の潜在コード z に基づいており、これが通常の動作の基礎となります。

言及する価値があるのは、逆のプロセスは本質的に、ランジュバン力学を介して、摂動を受けた原子座標と種のノイズを除去する方法を予測することです。彼らを本来の場所へ移動させ、本来の種族に戻します。同様に、出力グラフ表現は、材料の周期性と互換性のある有向多重グラフです。

生成フェーズでは、CDVAE はまず多変量ガウス分布から潜在コード z ≈ N (0, I) をサンプリングします。結晶パラメータ多層パーセプトロンはこれをデコードし、成分の化学組成、原子番号、格子パラメータを取得するために使用されます。これらを使用して、単位セルを初期化できます。ここでも、原子の位置は N (0, I) からランダムに選択されます。その後、原子の位置と種類はランジュバン動力学SE(3)等変画像ノイズ除去プロセスを通じて最適化されます。ノイズ除去プロセス全体を通じて、格子パラメータと原子番号は変更されず、最終的に結果の材料が得られます。

特別に設計されたPXRD回帰装置

さらに、本研究では、粉末X線回折(PXRD)パターンが予測されるべき所望の特性として設定されたため、研究者らは、潜在的な材料表現z∈Rを変換するPXRD回帰変数Fψを設計した。256  ベクトルy∈Rに写像される512つまり、材料のPXRDパターンの推定Q空間特性です。

PXRD 回帰器は、DenseNet にヒントを得たアーキテクチャによってパラメーター化されます。このアーキテクチャは従来の畳み込みニューラルネットワークを拡張するものである。回帰器は CrystalNet の設計に基づいており、1 次元の入力と出力を持つ密に接続されたアーキテクチャを備えています。具体的には、ネットワーク内の特定の深さに対して、DenseNet は、以前の中間データ表現を次の畳み込み層への入力として集約します。以下に示すように。

PXRD回帰変数のPXRDnet可視化

研究により、DenseNet は消失勾配問題を軽減し、標準的なコンピューター ビジョン ベンチマークで優れた結果を達成することがわかっています。

実験結果:実世界への応用の可能性

通常、ナノ構造は 1000 Å 未満のサイズの結晶として定義されますが、提案された方法の有効性をテストするために、研究者は結晶のサイズを 2 桁縮小し、フーリエ解析に基づく数学的フィルタリング方法を使用して 10 Å および 100 Å の結晶サイズで PXRD 法をシミュレートしました。予想通り、10 Å の場合、100 Å の場合よりもピークの広がりが顕著であり、情報劣化がより確実に確認されていることがわかります。以下に示すように。

ナノ材料のPXRDパターン

この画像は、研究者が sinc² フィルタリングを使用して、PXRD ピークに対するナノスケールの収縮の影響をシミュレートした方法を示しています。このうち灰色の線は理想モードを表し、紫色の線は処理後に広がったPXRDピークを表しています。モデルのパフォーマンスを向上させるために、研究者らは sinc フィルターの後にさらに追加のガウス フィルターを適用しました。これにより、回折ピークの広がりが増加しますが、フィルタリングによって発生する鋭いリップルを効果的に除去できます。横軸は散乱ベクトルの大きさをÅ⁻¹単位で表し、縦軸はスケールされた回折強度を表します。ここで、1 は最大強度値を表します。

次に、研究者らは以下に示すように PXRDnet 構造予測を示しました。左端の列は実際の結晶構造を示しており、他の列は、リートベルト解析後の PXRD パターンで PXRDnet によってシミュレートされた、直径 10 Å および 100 Å のナノ結晶の再構築された結晶構造を示しています。

PXRDnet構造予測

結果は、PXRDnet がさまざまな無機化学組成の材料構造解析において優れた性能を発揮することを示しています。100 Å のシミュレーション結晶サイズではパフォーマンスがわずかに向上しますが、より困難な 10 Å のシミュレーション結晶サイズでも優れたパフォーマンスを維持します。たとえば、PXRDnet は Cs₂YCuCI₆ や SmMn₂SiC などの材料の結晶形状をうまく捉えることができ、また Cs₂YCuCI₆ や BaSrMnWO₆ などの材料の対称性もうまく捉えることができます。さらに、Li₅Nb₂Cu₃O₁₀やSb₂F₁₃の故障などの極端な場合でも、PXRDnet は実験に貴重な参考資料を提供できます。

下の図は、実際のPXRDパターン、PXRDnetによる元の予測パターン、およびリートベルト改良後のパターンの比較を示しており、予測モデルと実際のデータの一致度を示し、モデルの予測精度を効果的に向上させることができるリートベルトの必要性を検証しています。たとえば、100 Å では、Sb₂F₁₃ の予測差は 0.681 でしたが、改良 (AI + Rietveld) 後に 0.019 に減少しました。


真のPXRDパターン、元のPXRDnet予測パターン、およびリートフェルト改良後のパターンの比較

次の表は、PXRDnet が MP-20 内の材料を正常に再構築できることを示しています。CDVAE-Search ベースラインと比較すると、PXRDnet の予測結果はさらに優れています。

物質構造の再構築

結果をさらに改善するために、研究者らは PXRDnet によって解析された均一に選択された 20 個の構造に対してリートフェルト改良を実行し、各構造の上位 10 個の候補入力を選択しました。下の図の通りです。

リートフェルト解析の結果、a および b は、それぞれ 10 Å および 100 Å のナノ結晶サイズの結果です。

結果は次のようになります。リートフェルト改良は、より鋭いブラッグピークを持つ 100 Å テストに特に効果的で、テストされた 20 個の構造のうち 18 個が 20% を下回り、15 個が 10% を下回りました。これは、いくつかの小さな問題にもかかわらず、PXRDnet が実際の構造に近い結果を一貫して出力することができ、それぞれのケースで適切な人間の介入によって正しい構造を取得できることを示しています。

最後に、研究者らはIUCrデータベースのデータを使用して、PXRDテストのパフォーマンスを実験的に検証しました。下の図の通りです。

実験データ

左端の列は、IUCr データベースから取得した実験的に観測された PXRD パターンに基づくベンチマーク構造を示し、中央は PXRDnet によって予測された構造を示し、右側は TOPAS (v.7) シミュレーションによる PXRD と実際の実験的に観測された PXRD の比較を示しています。結果は、PXRDnet がシミュレーションと現実のギャップを克服し、その結果が視覚分析と定量的メトリックの観点からシミュレートされたデータから得られた結果に匹敵することを示しており、提案されたモデルが現実のシナリオに適用できる可能性を実証しています。

AIと材料科学が融合し、100年前の課題を解決

PXRDnet の導入により、材料科学コミュニティにおける 1 世紀にわたる問題が解決されました。論文に述べられているように、この方法は他の構造的解決策と同様に 100% 成功するわけではないが、構造解明を探求するための候補方法を提供し、より多くの成功への扉を開くものである。

もちろん、PXRDnet の成功は一夜にして起こったものではなく、巨人の肩に乗って継続的に探求した結果です。人工知能とナノマテリアルの交差点では、数え切れないほどの科学研究者が常に画期的な成果を生み出すべく取り組んでいます。

例えば、MIT、スタンフォード大学などのチームが発表した「生成機械学習による粉末回折パターンからの結晶構造決定」に関する研究ここでは、実際の実験 PXRD データから結晶構造を解くことができる画期的な生成機械学習モデルを紹介します。実験では、研究者らは RRUFF データベースからの 134 の実験パターンと Materials Project からの数千のシミュレーションパターンの構造を予測し、モデルの一致率はそれぞれ最先端の 42% と 67% に達しました。
用紙のアドレス:

https://pubs.acs.org/doi/10.1021/jacs.4c10244

さらに、中国科学院、上海交通大学、清華大学、中国人民大学のチームも関連研究を発表している。我々は、実験的に安定した結晶の構造分布とそのPXRDパターンを学習することで結晶構造を決定できるエンドツーエンドのニューラルネットワークPXRDGenを提案します。PXRD データから原子の精密構造を抽出しました。このモデルは、事前トレーニング済みの XRD エンコーダー、拡散/フローベースの構造ジェネレーター、およびリートベルト改良モジュールを継承しており、わずか数秒で構造解析を正確に達成できます。関連研究は「生成モデルを用いた粉末回折結晶構造決定」というタイトルで発表されました。
用紙のアドレス:

https://arxiv.org/abs/2409.04727

要約すると、PXRDnet やその他の方法の探求により、材料科学コミュニティは従来の方法から人工知能と材料科学の相互統合へと移行できるようになりました。この研究は、材料科学界が直面する大きな進歩と問題を解決しただけでなく、その後の研究に新たなアイデアと方法を提供し、材料科学の将来の発展に新たな活力を注入しました。