マルチモーダル モデルは、完全な結晶構造を必要とせずに材料特性を予測し、新しい材料と産業用途のマッチングを加速します。

淮河の南で育ったオレンジはオレンジになり、北で育ったオレンジはミカンになります。同じ種を異なる土壌と気候に植えると、全く異なる果実が実ります。この成長の自然法則は材料化学にも同様に当てはまります。新しい材料は、用途によって異なる性能を発揮します。研究によると、科学者たちは毎年何十万もの新しい材料を生み出しています。これらは、成長するために適切な環境に根付く必要がある、計り知れない可能性を秘めた無数の「種」のようなものです。
現在の新材料設計は特定の用途向けに合成されることが多いものの、異なる分野での潜在的な用途を秘めていることがしばしばあります。しかしながら、新材料の応用シナリオを迅速に特定することは依然として困難な課題です。広く使用されている結晶性材料である金属有機構造体(MOF)を例に挙げてみましょう。MOFの最も注目すべき用途は、水素やメタンなどのガスの貯蔵媒体であり、膜、薄膜デバイス、触媒、バイオメディカルイメージングにおいて優れた性能を発揮する可能性を示しています。MOFの最適な用途を決定する従来のアプローチは、材料特性を中間的な基準として利用していますが、試験にはコスト(時間、設備、専門知識)がかかります。さらに、計算スクリーニングや機械学習手法では、特性を予測するために完全な結晶構造が必要ですが、結晶構造解析には時間がかかり、MOF合成後にすぐには得られません。
これに対処するため、カナダのトロント大学化学工学・応用化学学部の研究チームは、マルチモーダル機械学習モデルに基づく新しい方法を提案しました。MOF合成後に得られる情報を用いて、その潜在的な特性と用途を予測し、例えば、このモデルには粉末X線回折パターン(PXRD)と合成に使用される化学物質が含まれています。研究チームは、このモデルにアプリケーション推奨システムを追加し、MOF合成後すぐにアプリケーションを提案します。この研究は、金属有機構造体(MOF)の合成とアプリケーションシナリオの連携を加速させます。
関連研究は、「マルチモーダル機械学習を用いた金属有機構造体合成とアプリケーションとの連携」というタイトルで Nature Communications に掲載されました。
研究のハイライト:
* この方法では、合成後に得られる情報のみを使用して MOF の潜在的な特性と用途を予測し、MOF の合成後すぐにアプリケーションの推奨を行うため、材料の合成からアプリケーションまでのサイクルが大幅に短縮されます。
* 本モデルの予測性能は、CGCNNやMOFormerといった精密な結晶構造入力を必要とする高度なモデルと同等であり、特定の条件下ではそれらを上回る性能を発揮します。また、実験ノイズ、結晶構造欠陥、その他の条件下においても安定性と信頼性を備え、優れた堅牢性を示しています。
* この研究では、視覚的なアプリケーション推奨システムを組み合わせて、合成-予測-アプリケーションのクローズドループシステムを構築します。

用紙のアドレス:
https://www.nature.com/articles/s41467-025-60796-0
公式アカウントをフォローし、バックグラウンドで「MOF」に返信すると、完全な PDF が表示されます
AIフロンティアに関するその他の論文: https://hyper.ai/papers
「データは統合の場である」: アプリケーション予測のためのMOFデータ構築戦略
この研究では、モデルのトレーニングと評価に、CoRE-2019、BW20K、ARABG、QMOF、hMOF、および CSD サブセットの合計 6 つの金属有機構造体 (MOF) データベースが使用されました。で:
* hMOF は非常に大規模な仮説構造のライブラリを提供しており、モデルの一般化能力の向上に役立ちます。
* BW20K と ARABG は多様性を高め、少数ショットのタスクをサポートするために使用されます。
* CSD サブセットは、実験バイアス下でのモデルの堅牢性をテストするために使用されます。
研究チームは、CoRE 2019、BW20K、ARABG、QMOF、hMOFデータベースの結晶構造を用い、pymatgen XRDモジュールを用いて0度から90度までのシミュレーションPXRDパターンを計算し、実際の実験における合成後に得られる構造特性情報をシミュレートしました。金属ノードと有機リンカーからなる化学前駆体情報は、[金属の種類].[有機リンカー]の形式で構築され、モデルのTransformerチャネルに入力されて単語分割が行われました。
自己教師あり事前学習によるマルチモーダル学習フレームワーク
研究チームは、完全な結晶構造への依存をなくすことを目指して、自己教師型の事前トレーニング駆動型マルチモーダル学習フレームワークを提案した。合成後に得られる情報のみを使用して、MOF の特性と潜在的な用途を予測します。
この自己教師ありマルチモーダルモデルのワークフローを下図に示します。入力として、前駆体文字列と粉末X線回折(PXRD)スペクトルが用いられ、それぞれTransformerと畳み込みニューラルネットワーク(CNN)に埋め込まれ、回帰ヘッドに渡されて微調整されます。前駆体は材料の化学的特性に関する情報を提供し、PXRDパターンは全体的な幾何学的構造に関する追加情報を提供します。
Transformer によってエンコードされた化学前駆体文字列と CNN によって処理された PXRD スペクトルは、特徴の結合と投影を通じて統一された表現空間に構築されます。局所的な化学環境を直接特徴付けることができないという「前駆体 + PXRD」の欠点を補うために、研究チームは自己教師型の事前トレーニングメカニズムを導入しました。モデル出力は結晶グラフ畳み込みニューラルネットワーク(CGCNN)の埋め込みに合わせて調整され、相互相関行列はBarlow Twins損失を通じて単位行列に近くなるように制約され、それによってモデルが局所化学環境の表現力を学習するように導きます。
これを基に、大規模なラベルなしデータでの自己教師ありトレーニングの後、モデルは限られたラベル付きサンプルで迅速に収束し、細孔構造、化学物質依存特性、量子化学特性の高精度な予測を実現できます。

具体的には、MOFデータベースから得られた結晶構造に基づいて、この方法では、少量のデータでもさまざまな特性を正確に予測できます。これらには、細孔構造、化学的依存性、量子化学的特性が含まれます。
自己教師学習およびトレーニングフェーズでは、Crystal Graph Convolutional Neural Network (CGCNN) とモデル間の表現学習を実行するための自己教師学習 (SSL) パイプラインが構築され、入力から MOF のローカル環境を理解できないというモデルの限界を克服しました。モデルの重みが初期化され、解への迅速な収束が可能になりました。自己教師学習は CGCNN 埋め込みに対して実行されました。サイズ 512 の各埋め込みは、CGCNN とモデルのプロジェクターから抽出され、形状 (512, 512) の相互相関行列が構築されました。Barlow-Twin 損失関数を使用して差異を最小化し、相互相関行列を単位行列に近づけることで、表現学習を実現しました。
マルチモーダルモデルの評価
モデルがさまざまなMOF特性を効果的に予測し、MOF合成と応用の組み合わせの基盤を築くことができることを証明するために、研究チームは、スピアマン順位相関係数(SRCC)と平均絶対誤差(MAE)を使用して、幾何学的依存特性、化学的依存特性、および量子化学的特性におけるモデルの予測精度を評価し、CGCNN、MOFormer、および記述子ベースの機械学習モデルとのベンチマーク比較を実施しました。
結果は次のようになります。このモデルの精度は、完全な結晶構造に依存するモデルの精度に匹敵します。幾何学的性能においてもCGCNNやMOFormerを上回り、合成情報のみを使用して高精度な特性予測を実現できることが検証され、MOF合成とアプリケーションを迅速にマッチングするための実験的基礎が築かれました。

さらに、研究チームはアブレーション実験を実施し、化学前駆体のみに依存するモデルとPXRDのみに依存するモデルを、本研究で開発されたマルチモーダルモデルと比較しました。その結果、入力として化学前駆体のみを受け入れるモデルはMOF構造全体を効果的に捉えることができず、形状関連特性と純粋に形状的な特性で低いスコアとなりました。PXRDのみを受け入れるモデルはMOF構造全体をうまく捉えることができましたが、局所環境を反映できなかったため、化学関連特性と量子化学特性(低圧でのCO₂吸着やバンドギャップなど)のスコアは低くなりました。どちらのモデルにも限界がありました。この結果は、PXRD(形状情報を提供)と前駆体ストリング(化学情報を提供)を組み合わせることによってのみ、マルチモーダルモデルが3つの特性カテゴリーすべてについて包括的かつ正確な予測を達成できることを示しています。どちらか一方のみを使用すると、明らかに期待どおりの結果にはなりません。
モデルの安定性検証:構造誤差と実験ノイズに対する堅牢性評価
安定性は、機械学習モデルが現実世界のシナリオに確実に適用できるかどうかを評価する上で重要な指標です。この目的のため、研究チームは、提案されたマルチモーダルモデルの非理想的な条件下での堅牢性を体系的に評価しました。まず、研究者らはケンブリッジ構造データベース(CSD)から抽出した実験的結晶構造を用いて、対応するPXRDパターンを計算し、水素原子の欠損や結合溶媒または非結合溶媒の存在など、実際の実験でよく見られる構造偏差をシミュレートしました。評価は、メタン貯蔵用途における高圧下でのメタン吸着容量の予測という、単一の形状関連特性に焦点を当てました。
結果は次のことを示していますこのモデルは、上記の変動条件下でも優れた予測能力を維持できます。CH₄高圧吸着性能のランキングは強い一貫性を持ち、相対誤差は13%以下に抑えられており、高い堅牢性を示しています。
これを踏まえ、研究チームはさらに実際のPXRD測定パターンを導入し、機器ノイズや温度変動などの実際の測定誤差に対するモデルの安定性を検証しました。一部のサンプルではシミュレーションパターンと実験パターンに大きな差が見られましたが、モデルはほとんどの場合、シミュレーションパターンに近い推奨結果を示しており、ノイズが顕著であったり、ピークのずれが顕著であったりする個々のケースでのみ差異が見られました。上記の実験結果と合わせると、このマルチモーダルモデルは理想的な構造入力条件下で高い予測精度を示すだけでなく、実験構造が不完全であったり、PXRDにノイズがあったりする場合でも、堅牢な性能を維持することが示されました。実用的な材料研究および応用における幅広い応用性が検証されています。
下の図は、シミュレーションによる PXRD パターンと実験による PXRD パターンの違いを比較したモデル推奨結果を示しています。

統合アプリケーション推奨システム
モデルの優れた性能に基づき、研究者らは、新たに合成されたMOFと、予測される材料特性に基づいて潜在的な用途(ガス貯蔵や炭素回収など)をマッチングする、視覚的な潜在的用途推奨システムを開発しました。t-SNE技術を用いて、このシステムはモーダルモデルの潜在空間を投影し、MOFの推奨用途を色分けして表示します。次の図は、合成情報と用途シナリオのマッピングを示しています。

将来の材料の応用を予測するモデルの能力を検証するために、研究者らはタイムトラベル実験を行った。このモデルは、CSDデータベースに2017年以前に保存されたCoRE-2019エントリを用いて学習され、2017年以降に保存されたエントリを用いて将来の材料予測をシミュレーションしました。実験の目的は、これらのMOFの特定の用途(二酸化炭素吸着)における性能を予測することでした。その結果、モデルは炭素回収の可能性のある18種類のMOFを特定し、そのうち15種類は元々他の用途向けに設計されたものでした。

これらのMOFと、それに対応する合成用途のいくつかは、
機械学習は材料科学に革命を起こしている
本稿では、結晶構造に関わらず、MOFの多様な特性を正確に予測し、特定の用途に適合させるマルチモーダル機械学習アプローチを紹介します。このデータ駆動型のトレンドは、時間的にも空間的にも、より広範な材料系に広がっています。例えば、北京科技大学の謝建馨氏と蘇燕静氏が率いるチームは、解釈可能な機械学習の材料科学への応用を研究しました。彼らは、材料知識と機械学習を組み合わせることで、モデルの一般化と予測精度を大幅に向上させ、材料科学の発展に新たな展望を切り開くことを実証しました。関連研究「解釈可能な機械学習の応用:材料向けAIの有望な展望」は、Advanced Functional Materials誌に掲載されました。
用紙のアドレス:
https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202507734
米国のアルゴンヌ国立研究所の研究チームは、新しいMOF構造をランダムに生成・構築できる生成AIフレームワーク「GHP-MOFsassemble」を提案しました。このフレームワークは、分子動力学シミュレーションを用いて安定性の高いMOFを選別し、結晶グラフ畳み込みニューラルネットワーク(CGCNN)とグランドカノニカルモンテカルロシミュレーションを用いてMOFの二酸化炭素吸着能力を検証します。関連研究「炭素回収用金属有機構造体の設計のための分子拡散モデルに基づく生成人工知能フレームワーク」は、Communications Chemistry誌に掲載されました。
用紙のアドレス:
https://www.nature.com/articles/s42004-023-01090-2
オックスフォード大学の研究チームは、「計算材料設計におけるフロンティアとしてのアモルファス状態」と題した研究論文を発表し、材料設計における従来の限界を打ち破る上で機械学習が果たす重要な役割を強調しました。この研究は、近年の計算モデリングと人工知能の進歩が、これまで欠落していたアモルファス固体の原子スケール構造、微視的特性、そして巨視的機能性の間のつながりをいかに橋渡しできるかを示しました。
用紙のアドレス:
https://www.nature.com/articles/s41578-024-00754-2
これらの一連の研究は、明確なビジョンを描き出しています。材料科学は新たなインテリジェンスの時代を迎えており、機械学習が主導する材料研究の変革の真っ只中にあります。さらに重要なのは、インテリジェンスが新材料の設計・合成から応用シナリオへと徐々に広がり、新材料の実用化をさらに促進するということです。
参考文献:
1.https://pubs.acs.org/doi/10.1021/cr300014x
2023年から2024年にかけてのAI4S分野の高品質な論文と詳細な解釈記事をワンクリックで入手⬇️
