Command Palette

Search for a command to run...

MOF-ChemUnity は、9,874 件の論文から 15,000 の結晶構造に至るまで、MOF の包括的な知識を再構築し、材料の発見を「解釈可能な AI」の時代へと推進します。

6日前
AI4S の紹介
h.li
Featured Image

材料科学分野において、金属有機構造体(MOF)は科学者にとって「スイスアーミーナイフ」とみなされています。高い比表面積、化学的調節可能性、そして構造の多様性を備え、ガス分離・貯蔵、触媒、センシングなど幅広い用途が期待されています。しかし、研究者にとってMOFの世界は極めて広大で複雑です。これまでに12万5000種類以上のMOF構造体が合成され、数百万通りもの構造が計算・予測されています。

人工知能(AI)はMOF研究の分野に大きな変化をもたらしましたが、ただし、既存の方法のほとんどはまだ範囲が限られており、主に、簡単に拡張できない単一のパフォーマンス データセットまたは静的データセットの抽出に焦点を当てています。大規模なテキストマイニングデータセットであっても、結晶構造との堅牢な関連性を確立するよりも、文献から性能を引き出すことに重点が置かれています。この一貫性を実現する上で大きな障害となっているのは、標準化された命名規則の欠如です。例えば、同じ化合物が文献では「HKUST-1」と表記され、ある論文では「Compound 1」とラベル付けされている一方で、ケンブリッジ構造データベース(CSD)では「FIQCEN」として登録されている場合があります。この不一致はMOFだけでなく材料科学にも広く見られ、人間や大規模言語モデル(LLM)が複数のソース間でデータを照合することを困難にしています。

このような背景から、トロント大学とカナダ国立研究会議クリーンエネルギーイノベーション研究センターの研究チームは、構造化され、スケーラブルで拡張可能な知識グラフである MOF-ChemUnity を提案しました。この手法は、LLMを利用して、文献中のMOF名とその同義語、およびCSDに登録されている結晶構造との間の信頼性の高い1対1のマッピングを確立し、MOF名とその同義語、そして結晶構造間の曖昧性解消を実現します。現在のバージョンでは、MOF-ChemUnityは約10,000件の科学論文と15,000件を超えるCSD結晶構造とその計算化学特性を統合し、機械操作可能な形式で提示しています。LLMを補完する知識源としてMOF-ChemUnityを使用することで、AIアシスタントは包括的な文献知識に基づいて推論を実行できます。専門家の評価によれば、検索、構造と特性の関係の推論、材料の推奨などのタスクにおいて、その精度、解釈可能性、信頼性は標準的な LLM よりも優れていることが示されています。

関連研究の成果「MOF-ChemUnity: 金属–有機構造体研究のための文献に基づく大規模言語モデル」が ACS Publications に掲載されました。

研究のハイライト:

* MOF-ChemUnity は、すべての指定と名前を識別して単一の材料エンティティにリンクすることにより、出版物間の情報の統合と分析を可能にします。

* この構造により、研究者は高度な科学的質問をすることができ、AI モデルは事実と解釈に基づいて MOF 化学空間について推論することができるため、単一の論文を読んだり手動でデータを収集したりする以上の、文献インタラクションの新しい方法が開かれます。

* 標準的な命名規則の欠如やデータの異質性など、MOF と同様の問題に直面しているドメインに対して、MOF-ChemUnity は統合された情報のための強力な青写真を提供します。

用紙のアドレス:

https://pubs.acs.org/doi/10.1021/jacs.5c11789
完全な PDF を取得するには、当社の公式 WeChat アカウントをフォローし、バックグラウンドで「MOF-ChemUnit」と返信してください。

AIフロンティアに関するその他の論文:
https://hyper.ai/papers

データセット: 包括的なデータの視点を提供する

MOF-ChemUnity のデータ基盤は、次の 2 つの主要データベースから構成されています。CoRE MOF 2019 および QMOF では、合計 31,000 を超える固有の結晶構造が見つかりました。データの信頼性を確保するため、研究チームはガス吸着またはバンド構造情報を含むエントリのみを保持し、元の文献まで遡るために CSD (ケンブリッジ構造データベース) 参照コードが必要でした。

研究者たちは、テキストマイニングとデータマイニング(TDM)手法を用いて、ACS、Elsevier、RSCを含む複数の出版社から全文論文を入手しました。文書がXML形式かPDF形式かに関わらず、後続のAIモデルによる効率的な処理を保証するため、標準化されたMarkdownファイルに変換されました。

マッチングワークフローを適用した結果、研究チームは93%の15,143個のMOF結晶構造を解明し、9,874件の文献における名称および同義語との対応関係を確立することに成功した。さらに重要なのは、研究チームは、MOF 名と結晶構造を一致させただけでなく、文献内の参照情報 (特定の MOF を参照する「化合物 1」など) も特定し、各 MOF エンティティがナレッジ グラフ内で 1 対 1 に対応するエントリを形成するようにして、その後のモデル トレーニングと情報抽出のための強固な基盤を築きました。

これを基に、研究チームは MOF の実験特性、合成経路、推奨用途も抽出し、70,000 以上の特性データ ポイントと 2,500 以上の用途提案を含む構造化された宝庫を形成し、科学者に包括的なデータの観点を提供しました。

ChemUnity: 構造化され、スケーラブルで拡張可能な知識グラフ

MOF-ChemUnity では、LLM マッチングおよび抽出エージェントと知識グラフで構成されるモデル フレームワークが中核となります。

LLMマッチングエージェント

ワークフローの最初の部分では、MOF における名前付きエンティティの認識、参照解決、および一意のエンティティの関連付けの問題に対処することを目的としています。研究者らの解決策は、LLMに結晶構造から得られた情報を提供し、論文中のMOF名と対応するCSD参照コードを照合することでした。この情報には、CSD参照コード、格子定数、金属ノード、空間群、分子式、化学名、既知の同義語が含まれ、すべてCSD Python APIを通じて取得されました。LLMは、論文中のどの固有のMOF名が特定のCSD参照コードに対応するかを見つけ出すよう指示され、各論文中のCSD参照コードとMOF名が1対1で対応していることを保証しました。また、LLMはMOFに関連するすべての参考文献を見つける必要がありました。MOF名の照合と参考文献解決のタスクを分離することで、各ステップの精度評価を精緻化し、後続の情報抽出のための信頼性の高い基盤を構築しました。(下図参照)

MOFデータのマッチングと抽出のためのLLMエージェント

情報抽出ワークフロー

一般的なワークフロー:一致するワークフローから抽出された MOF 名は、情報抽出統合に使用されます。この統合では、複数のワークフローが MOF 名を受け取り、プロパティ、推奨アプリケーション、合成情報など、それらに関連付けられたさまざまな情報を抽出します。

専用ワークフロー:複雑な特性(水安定性など)については、抽出結果の信頼性を確保し、AI の「錯覚」の生成を減らすために、検証チェーン(CoV)方式が使用されます。

ナレッジグラフ MOF-ChemUnity 構築

MOF-ChemUnity の設計において、研究者は次の 3 つの主要な目標に焦点を当てました。スケーラビリティ、連想性、およびクエリ可能性。

まず、ナレッジグラフは拡張性と追加性を備え、文献や計算データベースの拡大に合わせて新しいデータをシームレスに統合できる必要があります。次に、文書間のエンティティ解決をサポートし、異なる論文、命名法、データベースからの引用であっても、同じ化合物の複数の引用文献を正確に関連付ける必要があります。さらに、ローカルクエリとグローバルクエリの両方をサポートし、きめ細かなクエリ(単一のMOFの合成条件など)と、より広範な分析(アプリケーションドメイン全体にわたる構造特性の傾向の特定など)の両方を実行できるようにする必要があります。

これらの目標を達成するために、研究チームは、独自のノードと関係タイプを持つパターンを設計しました。各MOFはMOFノードとして表現され、出版物、合成ステップ、プロパティ、アプリケーション言及は独立したノードとしてモデル化され、セマンティックな関係によって接続されています。生成されたナレッジグラフには、40,000を超えるノードと3,200,000の関係が含まれています。完全なスキーマ、完全なナレッジグラフ、および個々のMOFサブグラフを次の図に示します。

知識グラフを用いた異種MOFデータの構築

グラフ拡張検索および生成(グラフ拡張 RAG)

グラフ強化型RAGシステムは関連情報を取得し、それを一般的な質問応答のための少量のコンテキストとして利用します。このフレームワークには、構造的または化学的に類似したMOFを識別するための機械学習ベースの埋め込みも組み込まれており、より情報量の多い質問応答を可能にします。コア コンポーネント (クエリ ツールと近隣検索ツール) はモジュール化されており、AI エージェントによって必要に応じて呼び出すことができます。

MOFの推奨事項と埋め込み空間

化学的および幾何学的記述子(RAC、細孔容積、細孔径など)を用いて、MOFを低次元埋め込み空間に投影し、最近傍法を用いて類似材料を推奨します。これはガス吸着、炭素回収などのシナリオに適用でき、人間の経験を機械学習と互換性のあるルールに変換します。

結果のショーケース: 科学者と AI システムは、MOF の完全な知識を最大限に活用できます。

上記のフレームワークを使用して、研究チームはシステム検証とアプリケーションのデモンストレーションを実施しました。

水の安定性予測

研究者らは、MOF-ChemUnityの水安定性データセットを用いて、水安定性予測において非常に優れた性能を持つ分類モデルを学習させ、精度80%、F1スコア86%を達成しました(下図参照)。さらに重要なのは、MOF-ChemUnityには分子シミュレーションによるCO₂吸着データも含まれているため、研究者は両方の基準を同時に満たす材料を特定するための共同スクリーニングを行うことができることです。

機械学習を用いたMOFの耐水性の予測

専門家の推奨と検証

専門家は、直感、経験、あるいは専門知識に基づいて、特定の用途にMOFを推奨することがよくあります。こうした情報はそれ自体が貴重である一方で、その活用を形式化したり体系化したりすることはしばしば困難です。この問題に対処するため、研究者たちはMOF-ChemUnityにおける専門家の推奨と結晶構造の相関関係を活用し、MOFを構造を考慮した化学空間に組み込むことに成功しました。

研究者たちは、計算上重要なデータを用いて、メタン貯留と二酸化炭素回収という2つの用途においてこの手法の有効性を評価しました。下図に示すように、どちらの用途においても、これらの隣接するMOF(モデル推奨と表示)は専門家推奨の材料と同等の性能を示しました。これは…専門家の直感が構造空間にマッピングされると、機械学習モデルはその直感から学習し、それを実験データと組み合わせて予測を行うことができます。

CoRE MOF 2019データベースに含まれるすべての材料のメタンと二酸化炭素の吸収分布

専門家の推奨の強度と特異性を評価することも有益です。この目的のために、研究者らは専門家が推奨するMOFの性能分布を、その近傍材料、そしてデータベース全体からランダムに抽出した材料と比較しました。メタン貯留において、専門家が推奨するMOFとその近傍MOFの平均CH4吸着容量は、データセット全体の平均よりも大幅に高く、専門家が優れたメタン貯留性能を持つ材料を効果的に選択したことを示しています。これは、メタン貯留は主に多孔性や圧力スイング条件下での有効容量といった直感的な幾何学的特性に影響を受けることを示唆する先行研究と一致しています。

対照的に、二酸化炭素回収の場合、専門家が推奨する MOF のパフォーマンス分布はランダムサンプルの分布と似ており、この分野では専門家の直感の信頼性が低いことがわかります。

ドキュメントAIアシスタントアプリケーション

Banerjee らは、Ultralight MOF (ULMOF-5) と呼ばれるリチウムベースの MOF を合成し、論文ではこれを「化合物 1」と呼んでいます。標準的なLLMを用いてULMOF-5の耐水性を問い合わせると、モデルは「錯覚的な」回答を返し、類似した名前を持つものの無関係なZn系MOF-5と混同してしまいます。一方、MOF-ChemUnityは全ての参考文献を正しい結晶構造に関連付け、論文中の「化合物1は水に可溶である」という文で示される耐水性ラベル(「不安定」)を捉えます。本研究で提案されたシステムは、この情報を取得し、引用文献と説明を付した根拠のある回答を提供することで、精度と透明性を向上させます。

システムをさらに評価するため、研究者らは、グラフ強化型RAGと従来のLLM(GPT-4o)の応答を、事実検索、構造特性推論、材料推奨という3つのタスクで比較しました。9人のMOF専門家が盲検化調査で応答の質と信頼性を評価しました。下の図cは、グラフ強化型アシスタントがすべてのタスクで高いスコアを獲得したことを示しています。専門家は引用文献、具体的な例、検証可能な主張に特に重点を置きましたが、ベースラインモデルの応答は、一般的、根拠がない、または検証できないものが多かったです。これは、構造化された科学的知識をLLMに統合することで、事実の信頼性とユーザーの信頼を向上できることを示唆しています。

RAG はナレッジグラフに基づいて、文献情報の AI アシスタントとして機能します。

MOF-ChemUnity は他の材料カテゴリにも拡張できます。

MOF-ChemUnityの意義は、既存のMOFデータ統合をはるかに超えています。MOF-ChemUnityは、材料科学研究のための学際的かつスケーラブルなデータ管理・分析パラダイムを提供します。近年、共有結合性有機構造体、ゼオライト、ポリマー、多孔質材料の研究が急速に進展する中で、様々な材料データは高度に不均一で、命名法にも一貫性がないため、文書間およびデータベース間の情報統合が科学的発見を阻害するボトルネックとなっています。こうした背景から、MOF-ChemUnityによって構築されたナレッジグラフフレームワークは、これらの材料カテゴリーのための青写真を提供します。統一されたエンティティ解析、コア関係注釈、および属性抽出方法を使用することで、標準化された命名がないフィールドやデータ形式に大きな違いがあるフィールドでも、さまざまなソースからのデータの効果的な関連付けと体系的な管理を実現できます。

業界の多くのチームも同様のプロジェクトに取り組んでいます。例えば、材料科学に関する膨大な学術文献には、豊富な科学的知見が蓄積されています。しかし、これらの文献に散在するテキスト形式の科学的知識は、通常、研究者によって手作業で収集・分析されており、このプロセスは時間のかかる作業であり、情報の完全性を確保するのも容易ではありません。これらの文献に含まれる材料科学情報を構造化された知識として表現し、知識の連想、融合、推論といった手法を組み合わせて材料知識グラフを構築すれば、研究者は正確かつ効率的に情報を取得できます。

北京大学深圳大学院新材料学院の潘鋒教授の研究グループは、近年、材料知識グラフの構築と主要な科学技術課題の解決に取り組んできました。彼らは、高精度かつ効率的な名称ベースの曖昧性解消と情報検索のフレームワークを開発し、MatKGと呼ばれる材料知識グラフを構築しました。この基盤を基に、2022年には、材料科学知識の埋め込みを可能にするセマンティック表現フレームワークを提案しました。このフレームワークは、マルチソース情報の融合を通じて材料エンティティの表現品質を向上させ、材料科学文献からリチウムイオン電池正極材料エンティティを正確にマイニングし、高性能リチウム電池材料を予測するための正極材料知識グラフを構築することを可能にします。
論文のタイトル:リチウムイオン電池正極のセマンティック知識グラフを用いた材料探索の自動化
用紙のアドレス:https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

一方、IUPAC吸着情報ファイル(AIF)などの標準化されたフォーマットの導入により、MOF-ChemUnityの設計は新しい標準規格のシームレスな統合を可能にし、データの統一、トレーサビリティ、そして解釈可能性を実現します。これにより、新しい文献レポートと計算シミュレーションデータの両方をシステムに容易に組み込むことができ、データセットの継続的な拡張と反復的な更新が可能になります。この持続可能な更新機能は、ハイスループットでマルチターゲットの材料スクリーニングのための強固な基盤を提供し、材料ゲノムイニシアチブやFAIRデータ原則の最新動向と整合し、研究者に再現性と検証性を備えた分析フレームワークを提供します。

将来的には、MOF-ChemUnityの可能性は、科学アシスタントとしての役割にも期待されています。自然言語インタラクションとグラフクエリツールを用いることで、研究者は「水環境における汚染物質除去に適した、高い安定性と特定の金属ノードを併せ持つMOFはどれか?」といった複雑な質問をすることができ、システムは文献、実験データ、計算データに基づいて検証可能な回答を提供します。ナレッジグラフとLLMを統合したこのアプローチは、材料科学研究におけるAI応用の新たなベンチマークとなるでしょう。

参考文献:
1. https://pubs.acs.org/doi/10.1021/jacs.5c11789

2. https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

3. https://news.pku.edu.cn/jxky/64f28e5b50074113bfaec41af68c1971.htm