MIT チームは、任意の温度での小分子の溶解度を予測するために、元のモデルより 50 倍高速な FASTSOLV モデルを提案しました。

特色图像

化学および材料科学の分野において、様々な溶媒に対する有機固体の溶解性は、分子の核となる特性であり、研究および産業チェーン全体に影響を与えます。合成プロセスにおいて、溶解性の精密な制御は、最適な溶媒の選定と反応条件の最適化に役立つだけでなく、製品の収率と純度を大幅に向上させ、生産コストを削減することにもつながります。環境科学においては、パーフルオロアルキル化合物(PFAS)やポリフルオロアルキル化合物(PFAS)などの汚染物質の土壌や水中における移動と動態を分析するための重要なパラメータであり、汚染防止と制御のための科学的根拠を提供します。また、結晶化や膜分離などのプロセスにおいて、溶解性は相挙動と分離効率を決定する中核的な変数です。

しかし、従来の実験的測定法には多くの限界があります。時間と材料を大量に消費するだけでなく、有機固体の結晶形態や不純物などの要因の影響を受けやすく、データの精度が不十分になることがあります。研究によると、水溶解度logSの実験室間標準偏差は0.5~0.7 log単位に達することが多く、極端な場合には測定結果の差が10倍を超えることもあります。経験的グループ加算法、量子化学モデル、機械学習法などが予測に適用されてきましたが、しかし、汎用性が不十分であったり、精度と計算効率のバランスを取るのが難しいといった問題がしばしば発生します。

この問題点を解決するために、マサチューセッツ工科大学の研究チームは、化学情報ツールと新しい有機溶解度データベース BigSolDB を組み合わせました。FASTPROPおよびCHEMPROPモデルアーキテクチャに基づいて改良された、このモデルは、溶質分子、溶媒分子、温度パラメータを同時に入力し、logS で直接回帰トレーニングを実行できます。

厳密な溶質外挿シナリオでは、Vermeireなどの既存のSOTAモデルと比較して、最適化されたモデルの RMSE は 2 ~ 3 倍減少し、推論速度は最大 50 倍向上しました。現在、チームはFASTPROP派生モデルをFASTSOLVと名付け、オープンソースとして公開し、関連する科学研究や産業アプリケーションに効率的で実用的なツールを提供しています。

当該研究成果は、「偶然性不確実性の限界におけるデータ駆動型有機溶解度予測」というタイトルでNature Communication誌に掲載されました。

用紙のアドレス:

https://www.nature.com/articles/s41467-025-62717-7

公式アカウントをフォローし、「有機溶解度」と返信すると、完全なPDFが手に入ります。

BigSolDB 駆動型データセット構築および評価システム設計

この研究の核となるデータソースは BigSolDB であり、これはさまざまな有機溶媒中および沈殿限界に近いさまざまな温度条件下での有機固体の溶解度データを体系的に収集し、一般的な予測モデルのトレーニングに重要なサポートを提供します。

「事前の知識なしに新しい溶質を外挿する」という研究目標を達成するために、研究チームは厳密なトレーニング評価システムを設計しました。モデルは BigSolDB でトレーニングされ、SolProp と Leeds の 2 つの公開データセットで個別にテストされました。外挿の難しさを過小評価しないために、本研究では、下の図に示すように、まずBigSolDBと重複するSolPropのすべての溶質を削除し、より広い化学空間を持つLeedsデータセットを補足として導入しました。

溶質外挿性能

SolPropと比較して、Leeds はより高い溶質多様性を提供しますが、室温条件のみをカバーします。これにより、モデルの新しい化学空間への適応性をテストできるだけでなく、「多温度平均化」による暗黙的なノイズ低減がないため、不確実性の上限も高くなります。特に、下図に示すように、3つのデータセットのlogS分布は非常に一貫性があり、すべて-1付近に集中し、低溶解度側で長い裾野を示しているため、データセット間のパフォーマンス比較において分布の比較可能性が確保されています。

ラベルの配布

データのセグメンテーションに関しては、下の図に示すように、研究者は溶質を厳密に単位として使用しています。95%の溶質はトレーニングに使用され、5%は検証とモデル選択に使用されます。異なる溶媒および温度における同じ溶質のすべての測定値は、同時に異なるサブセットに表示されることはありません。これにより、情報漏洩を効果的に回避できます。

さらに、この研究では、ASTARTES ツールキットを使用して、検証セットをトレーニング データ内の「完全な実験」にランダムに分割し、最終評価で溶質と実験の両方の次元から分割境界を再確認して、評価の独立性と厳密性を確保しました。

データセグメンテーション戦略

BigSolDB による FASTSOLV モデル構築

本研究では、BigSolDB データセットを基に、下図に示すように、FASTPROP と CHEMPROP という 2 つの古典的なモデル アーキテクチャをカスタマイズし、明確な機械学習モデリング プロセスを構築しました。

初め、溶質(パラセタモールなど)と溶媒(エチルアセテートなど)の分子構造を対応する表現ベクトルにマッピングします。続いて、これら 2 つの分子表現ベクトルは、溶液温度パラメータと組み合わされて、完全な溶液表現を形成します。ファイナル、この表現は完全接続ニューラル ネットワークに入力され、logS (溶解度の対数) をターゲットとして回帰トレーニングが実行されました。

この変換により、最終的に開発されたモデルは、複数の有機溶媒とさまざまな温度シナリオにおける小分子の溶解度の統一的な予測を実現し、従来のモデルの特定の溶媒または温度範囲への依存を打破しました。

機械学習ソリューション

モデルの堅牢性と予測の信頼性をさらに向上させるために、研究チームは単一のモデル出力に依存しませんでした。代わりに、FASTPROP モデルは 4 つの異なるランダム初期化条件下でトレーニングされ、最終的な FASTSOLV モデルは統合戦略の組み合わせを通じて取得されます。パフォーマンスの比較やケース検証など、その後のすべての主要な分析はこの統合モデルに基づいて行われるため、単一モデルのランダム変動リスクが効果的に低減されます。

同時に、新モデルの性能を客観的に測定するため、本研究では現在広く認知されているSOTAモデルであるVermeireモデルを比較ベンチマークとして導入しました。このモデルは、4つの独立した熱化学サブモデルを通して学習され、熱力学サイクルの組み合わせによって溶解度結果を出力します。溶媒の多様性と温度依存性のバランスをとるという利点があります。しかし、本研究では、テストに使用したSolPropデータセットは、自身の学習セットと溶質構造が大きく重複していることがわかりました。この「データの重複」は、外挿された性能を過大評価する可能性があります。比較の公平性と厳密性を確保するため、本研究ではVermeireモデルの元の学習・テスト設定を厳密に再現し、これに基づいて対照実験を実施することで、性能差がモデル自体のみによるものであり、テスト条件によるものではないことを確認しました。

有機溶解度外挿のSOTAを2~3倍の精度と50倍の速度で更新します。

本研究では、モデル性能の多次元テストと検証を実施しました。補間シナリオにおいて、最適化されたFASTPROPモデルはRMSE=0.22、P₁=94%を達成し、CHEMPROPモデルはRMSE=0.28、P₁=90%を達成しました。パフォーマンスは実験データのノイズ上限に近づき、BigSolDB のサポート価値を確認しました。

下図に示すように、新しい溶質外挿テストでは、VermeireモデルはLeedsデータセットにおいて系統的過大評価(RMSE=2.16、P₁=34%)によりパフォーマンスが低下しました。一方、FASTPROPとCHEMPROPのRMSEはそれぞれ0.95と0.99に低下し、P₁は69%を超えました。SolPropデータセットでも、モデルのパフォーマンスは向上しました(RMSE=0.83、P₁=80%)。そして、FASTPROP の推論速度は Vermeire モデルの約 50 倍です。SHAP 解釈可能性分析をサポートします。

テストセットにおけるVermiere、FASTPROP、CHEMPROPモデルの最適解

トレーニングデータ量の実験を下図に示します。FASTPROPとCHEMPROPは分子表現が異なりますが、パフォーマンスは同様の限界に収束します。SolPropテストセットではプラトーに達するまでに約500回の実験(≈5,000データポイント)が必要ですが、CHEMPROPではLeedsテストセットで約2,000回の実験(≈20,000データポイント)が必要です。

BigSolDB の同じ条件下における 34 セットのマルチソース データから推定すると、実験的なランダム不確実性の限界は RMSE = 0.75 ログ単位ですが、SolProp の 2 つのモデルの RMSE は 0.83 で、この限界に近い値です。MolFormer や ChemBERTa-2 などの大規模モデルと比較すると、2 つのモデルのパフォーマンスは優れています。これは、パフォーマンスのボトルネックの原因がモデルの表現力ではなく実験データにあることを証明しています。


任意の限界におけるモデル性能の平均検定

さらに、下図に示すように、2つのモデルはSolPropテストセットにおいて高い相関性を示し(ピアソンr=0.81)、予測された温度勾配分布も非常に一貫性があります(EMD=0.03/0.02)。系統誤差はVermeireモデル(EMD=0.06)よりも大幅に低くなっています。

FASTPROPモデルとCHEMPROPモデルの相関予測

研究では、下の図に示すように、典型的な溶質検証において、FASTSOLV はリスペリドン (RMSE=0.16 vs Vermeire 1.64) と L-プロリン (RMSE=0.25 vs Vermeire 2.33) の予測において大きな利点があることも判明しました。溶媒の溶解度の順序と温度依存性を正しく判定できるだけでなく、構造が似ているヘキサンとヘプタンを区別することもできます。故障モード解析の結果、アントラキノンの予測誤差は高いことが示されましたが、85 種類のアントラキノン/アントラキノン誘導体のサブセットでは、モデルの全体的な RMSE は 0.52 であり、溶媒溶解度は安定してランク付けでき、分子特性が妥当であることが示されました。

構造的に異なるソリューションのモデル検証

総括する、Vermeire モデルと比較すると、FASTSOLV は RMSE を 2 ~ 3 倍削減し、推論を最大 50 倍高速化します。この手法は解釈可能性とエンジニアリングの可能性を兼ね備えており、厳密な外挿設定下でも最先端の性能を発揮します。また、この研究では、追加のトレーニングデータを追加しても性能限界を超えることはないと指摘されており、今後の研究では高精度な有機溶媒データセットの構築に重点が置かれる予定です。

「データセット + AI」が分子特性予測における世界的なブレークスルーを推進

今日の化学、医学、材料科学におけるクロスイノベーションの波の中で、「大規模データセット+高度な機械学習モデル」を中心とした分子特性予測技術は、時間のかかる実験、高額な研究開発費、困難な性能予測などの業界の悩みを解決するための重要なツールになりつつあります。

学術界では、世界中の研究チームがFASTSOLVとBigSolDBの画期的な進歩に応え、革新的な溶解度予測研究を次々と開始しています。例えば、英国リーズ大学の研究者たちは、人工知能と物理化学的メカニズムを組み合わせた因果構造特性関係モデルを提案しました。有機溶媒および水系における溶解度の予測は、実験誤差とほぼ同じ精度です。また、優れた解釈可能性も備えており、溶解度モデリングの分野における重要なマイルストーンであると考えられています。

一方、マサチューセッツ工科大学(MIT)の研究チームは、グラフニューラルネットワーク「Chemprop」を用いて抗生物質の発見において大きな進歩を遂げました。彼らは39,312の化合物の抗生物質活性とヒト細胞毒性プロファイルを決定し、グラフニューラルネットワークアンサンブルを用いて12,076,365の化合物の抗生物質活性と細胞毒性を予測し、新たな抗生物質の発見につなげました。初期の化合物パネルをスクリーニングし、メチシリン感受性株S. aureus RN4220に対する増殖阻害活性を評価することで、512 個の活性化合物が得られました。次に、グラフ ニューラル ネットワークをトレーニングして、バイナリ分類予測を実行します。

製薬業界でも、目覚ましいイノベーションが生まれています。製薬業界は長年、ハイスループットかつ低コストの溶解性評価技術に注力してきました。例えば、AspenTechのAspen Solubility Modelerツールは、数種類の溶媒の測定データに基づいて、数百種類の溶媒の組み合わせにおける溶解性を予測できます。このツールは、GSKやAstraZenecaといった大手企業における結晶スクリーニングやプロセス開発において、効率性と意思決定の信頼性を大幅に向上させています。

さらに、一部の企業は、材料研究開発の分野でも同様のデータ駆動型モデルを活用しています。膨大な分子構造や性能データを分析することで、新素材の特性予測、研究開発サイクルの短縮、そして研究開発コストの削減を実現しています。化学業界では、異なる溶媒や温度条件下での化学反応の影響をモデルで予測し、生産プロセスを最適化し、生産効率と製品品質の向上を実現している企業もあります。これらはすべて、学術研究で得られたモデルやデータ概念を実際の生産革新に応用している企業の例です。

参考リンク:

1.https://eps.leeds.ac.uk/faculty-engineering-physical-sciences/news/article/5678/solubility-prediction-problem-addressed

2.https://www.manufacturingchemist.com/news/article_page/Solubility_modelling/57726

2023年から2024年にかけてのAI4S分野の高品質な論文と詳細な解釈記事をワンクリックで入手⬇️

MIT チームは、任意の温度での小分子の溶解度を予測するために、元のモデルより 50 倍高速な FASTSOLV モデルを提案しました。 | ニュース | HyperAI超神経