ネイチャー誌に掲載されたロシアの研究チームは、機械学習を使って何兆もの質量分析データを検索し、未知の化学反応を発見した。

質量分析(MS)は、現代の化学研究における中核技術の 1 つです。質量分析法では、分子イオンの質量電荷比 (m/z) を測定することで、化合物の分子式、構造、さらには反応機構に関する重要な情報を得ることができます。高分解能質量分析法 (HRMS) の出現により、分析精度は ppm レベルまで向上し、有機合成、金属触媒、医薬品開発などの分野における「ゴールド スタンダード」となりました。しかし、機器の自動化が進むにつれ、研究室で毎日生成される質量分析データの量はテラバイト(TB)レベルを超え、数TBの情報がコンピューターに蓄積されるようになりました。しかし現在、実験データと MS データは手動分析に大きく依存しており、人的要因がデータ分析の解釈範囲に影響を及ぼす可能性があります。これにより、実験は大幅に制限されます。
この課題に対処するため、ロシア科学アカデミーやその他の機関の研究者は、革新的な機械学習 (ML) 駆動型検索エンジン MEDUSA Search を導入しました。イオン同位体分布は、TB レベルまでの多成分高解像度質量スペクトル データベースで検索できます。このアプローチでは、2 つの共同機械学習モデルによって強化された同位体中心の検索アルゴリズムを利用して、未知の化学反応の発見を支援します。このアプローチにより、既存のデータを厳密にスクリーニングして化学仮説を有効に裏付けると同時に、追加実験の必要性を減らすことができます。さらに、ベースラインアプローチを拡張することで、モデルは反応仮説を自動的に生成し、新しい化学変換を明らかにすることができます。で、溝呂木・ヘック反応における複素環-ビニルカップリング過程は実験において際立っており、エンジンが複雑な化学現象を解決する能力があることを浮き彫りにした。
「機械学習を活用したテラスケール質量分析データの解読による有機反応の発見」と題された関連研究が、Nature Communications に掲載されました。
研究のハイライト
* 未知の反応のマイニング: 新しい実験に頼るのではなく、既存のデータを使用して未知の化学反応をマイニングし、実験コストとリソース消費を削減します。
* 効率的な検索アルゴリズム: 機械学習モデルと組み合わせた独自の同位体分布検索アルゴリズムにより、大規模な質量分析データ内のイオンを正確に検索し、誤判定を減らすことができます。
* 化学認識の拡大: ミゾロキ・ヘック反応における複素環-ビニルカップリング過程など、新しい反応経路と生成物を発見し、化学反応の理解を深めます。

用紙のアドレス:
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
データセット: 反応性イオンの存在を確認する20,000枚以上の質量分析画像
質量分析信号のほとんどは専門的な分析が行われていないため、研究室では過去数年間にわたって膨大な量のデータを蓄積・保管しており、今回の実験で使用したデータはすべてそこから得られたものです。これらの質量分析データは、化学変換研究の幅広い範囲をカバーしています。総データ量は 8 TB を超え、その中には 20,000 以上の質量スペクトルが含まれます。異なる解像度での多成分の高解像度質量分析データが保存され、幅広いアプリケーションでターゲットイオンの存在を確認できます。
MEDUSA 検索 反応発見プロセス中に、生成されたイオン式がテラスケール HRMS データベース全体に対して検索され、新しい反応経路と生成物が見つかり、データが視覚化されます。
データセットは、t-SNE 次元削減技術を使用して視覚化されました。アーカイブされたデータセットの高い多様性を示すために、研究者らは 2 つの t-SNE プロットを作成しました。収集された分子は、PubChem データベースおよび質量分析登録化合物からランダムにサンプリングされました。分析質量スペクトルに登録された化合物は化学空間を十分にカバーしています。各ドットはスペクトルを表し、同様の質量スペクトルはグラフ上で互いに近く、異なる作業者が異なるスペクトルを記録して互いに比較しました。実験により、質量スペクトル内の化合物は化学空間に広く分布しており、異なる研究者によって記録された質量スペクトルは大きく異なります。下記の通りです。


この研究によって生成された多様なデータは、Figshare に保存されています。これには9 GBの質量分析ZIPアーカイブが含まれています。言及されているすべての発見製品がカバーされており、追加の反応質量分析データも含まれており、検索エンジンの機能をテストするために使用できます。検索から結果が得られなかった一部のデータは、機密性または知的財産権のため公開できません。
* figshare はクラウド コンピューティング テクノロジーに基づくオンライン データ リポジトリであり、研究者はデータ、データセット、画像、ビデオ、ポスター、コードなどの研究結果を保存して共有できます。
HRMS高解像度質量分析データセット:
モデルアーキテクチャ:同位体分布探索に基づく未知の化学反応の発見
MEDUSA Search は、大量の質量分析データから未知の化学反応を発見するために使用できる機械学習ベースの質量分析データ分析エンジンです。
具体的には、MEDUSA Search で開発された検索プロセスは 5 つのステップで構成されています。
初め、MEDUSA Search は、検索対象のイオンの分子式と電荷を入力として受け取ります。これらの式または電荷は、仮説生成アプローチを使用して反応システムから導き出すことも、手動で定義することもできます (下の図 A を参照)。次に、検索エンジンは、下の図 B に示すように、入力イオンの最も豊富な 2 つの同位体ピークを含むすべてのスペクトル ファイルを検索します。同位体ピークは質量電荷比 m/z によって表されます。これらのスペクトル ファイルは候補と呼ばれ、研究者らは、下の図 C1 に示すように、スペクトル ファイルに対してコサイン距離の閾値計算も実行しました。次に、すべての候補質量スペクトルは、下の図 C2 に示すように、入力式に従って単一スペクトル内の同位体分布を検索するアルゴリズムにかけられます。

検索する前に、研究者は反応システムに関する事前知識に基づいて仮説的な反応経路のリストを生成する(図A参照)。このシステムは、破壊可能な結合と対応するフラグメントの再結合を中心に設計されています。化学式と電荷に関する情報を入力すると、イオンの理論的な「同位体パターン」を計算できます。逆インデックスで、最も豊富な 2 つの同位体ピークを検索します (図 B)。これらのピークを含む質量スペクトルは候補と呼ばれます。粗いスペクトル検索の後、各候補スペクトルに対してクエリイオンの同位体分布が検索されます。3 つのステップがあります:
* 初期のイオン存在閾値推定:スペクトル内の同位体分布検索アルゴリズムによって返されるコサイン距離は、理論上の同位体分布と一致した同位体分布間の類似性の尺度として使用されます。スペクトル内のイオンの有無の自動判定は、推定最大コサイン距離(つまり、イオン存在しきい値)によって決まります。機械学習回帰モデル (図 C1) に基づいて、入力イオン式を使用してイオン存在しきい値が決定されます。
* スペクトル内の同位体分布を検索します。スペクトル内同位体分布検索アルゴリズム (図 C2) は、実験候補質量スペクトルのピークを理論上の同位体分布のピークと一致させます。各ステップでコサイン距離が計算され、最も類似したピークが選択されます。ピークが見つからない場合は、ノイズの中央値に等しい強度を持つピークに置き換えられます。最終的なコサイン距離が手順で推定されたイオン存在しきい値よりも小さい場合 (図 C1 に示すように)、イオンが見つかったとみなされます。
* 誤検出の一致をフィルタリング:追加の機械学習分類器 (図 C3) を使用して、隣接するピークに関する情報を使用して偽陽性イオンの存在を検出しました。この問題は通常、別のディストリビューションの一部であるディストリビューションを検索するときに発生します。最も顕著な例の 1 つは、M+1 で始まりますが、M も存在します。
実験的結論:複素環-ビニルカップリング実験はモデルの検出能力を強調する
生成された 520 個のイオンは、Terascale HRMS データベース全体で検索され、合計計算時間は 3 ~ 4 日 (イオンあたり 8 ~ 11 分) でした。 実験結果では、MEDUSA Search が複数の同位体分布パターンを検出することが示されています。
触媒変換生成物の形成は、対応する反応機構と密接に関連しています。これまで、さまざまな NHC リガンドとハロゲン置換基を持つ Pd/NHC 錯体を触媒成分として使用して、いくつかの Mizoroki-Heck 反応およびクロスカップリング反応 (Sonogashira、Suzuki、Buchwald-Hartwig など) が実行されてきました。反応混合物のESI-MS分光法による反応機構の研究中に、カップリング生成物[NHC-H]⁺、[NHC-Ph]⁺、[NHC-O]⁺および[NHC-N]⁺が発見されました。これらの観察に基づいて、触媒反応条件下での M/NHC 複合体の進化における R-NHC カップリングと M-NHC 結合切断の重要な役割が明らかになりました。H-NHC塩およびO-NHCカップリング形成を含むCCカップリング反応の数の観点から、触媒的に活性な分子M / NHC触媒および「NHCフリー」カクテル型触媒の形成について説明します。
園頭反応では、これまで知られていなかったエチニル-NHCカップリング生成物が単離され、考えられる反応経路が説明されました。エチニル-NHC カップリング生成物は反応性が非常に高く、さまざまな変換を受けることができます。記載された方法を使用して、生成物の水素化誘導体を分析しました。園頭反応混合物のESI-MSスペクトルは[NHC-(CH₂)₂-Ph]⁺生成物の存在を示した。下記の通りです。このプロセスは移動水素化反応によって起こると推測されます。

Pd/NHC錯体[BIMePh]⁺ [BIMePdI₃]⁻の触媒作用により、p-メトキシヨードベンゼンとブチルアクリレートとのミゾロキ・ヘック反応混合物の質量分析により、[BIMe (CH)₂COOBu]⁺の生成が明らかになった。分子式は超高解像度質量分析によって確認されました。 [IPrCHC(Ph)COOBu]⁺の形成を伴う実験は、水銀による均一触媒と不均一触媒を区別するために使用されました。反応種に対する水銀の干渉を排除し、他の条件は元の実験と同じに保ちます。分子式も超高分解能質量分析によって確認され、化学構造はMS/MS実験によって検証されました。



5 種類の異なる NHC リガンドを使用して実験を実施しました。 Mizoroki-Heck反応によるPd/NHC変換中にビニル-NHCカップリングが起こる可能性を試験した。研究されたすべてのケースで、複合体内の配位子とは無関係にビニル-NHC 生成物が検出され、すべての生成物は最小限の誤差で定義されました。研究対象となった反応混合物、例えば(BIMe)PdI₂Py、(SIMes)PdCl(アリル)、(PIPr)PdCl(アリル)などでは、ビニル-NHCに加えてエチル-NHCも検出されました。(IMes)PdCl(アリル)および(SIPr)PdCl(アリル)錯体のm/z誤差は非常に低く、0.3 ppm未満ですが、誤差は1 ppm未満です。すべての MS 実験では、質量スペクトルの記録中に遷移が発生しないように構成が設定されました。問題のビニル-NHCカップリングプロセスに対して圧力サンプル注入ESI-MS反応モニタリングも実行され、反応データ収集の複数のモードでイオンを観察できることを確認しました。
この堅牢な機械学習ベースの反応発見計算エンジンは、さまざまな組成のイオンを使用できることが実証されています。イオン検索は、同位体分布を観察するのに十分な解像度で、すべての MS 機器で実行できます。開発されたシステムを他の計算技術(構造式やペプチド配列によるイオンフラグメントの予測アルゴリズム、さまざまな付加物計算機など)と組み合わせることで、さまざまな科学分野での発見を加速するために不可欠な、包括的なスクリーニングのための強力な分析ツールになる可能性があります。
また、この方法は、「過去の実験」という研究コンセプトを実現するものでもあります。既存のデータの価値を最大限に活用し、新しい反応経路と生成物を発見し、研究リソースを節約し、化学研究に新しいアイデアと方法を提供し、有機化学の分野の発展を促進します。実用面では、製薬会社、材料研究開発会社などが新しい反応経路や製品をより早く発見し、研究開発コストを削減し、研究開発効率を向上させ、化学研究のための強力な分析ツールを提供するのに役立ちます。
質量分析データの自動分析が臨床応用に
科学研究と工業生産における質量分析技術の継続的な深化に伴い、自動化技術は臨床応用に向けて動き始めています。精密診断技術の重要な構成要素である臨床質量分析は、サンプルの収集、処理、分離から分析まで完全な自動化を実現できます。米国が新たに発表した第17版「世界IVD産業レポート」によると、世界の臨床質量分析産業の市場規模は2024年に9億3000万米ドルに達すると予想されています。2029年には14億3500万米ドルに達すると予想されている。 2024年から2029年にかけて、臨床質量分析市場は年平均9%の成長率で成長し、核酸検査に次いでIVD分野で最も急速に成長する市場セグメントになると予想されています。
※IVD(体外診断用医薬品)とは、医療機器、体外診断用試薬、医薬品を指します。
中国市場を見ると、臨床質量分析業界は長い間、急速な発展を遂げており、質量分析マルチオミクス、家庭用質量分析計、自動化質量分析の分野で大きな進歩を遂げています。「2024年臨床質量分析産業調査報告書」によると、2024年7月31日現在、品質管理製品と校正製品を除いて、合計228の国内臨床質量分析製品がNMPAに承認されています。
承認された試薬の種類別に見ると、中国で承認された国産臨床質量分析装置の数は過去5年間増加し続けており、成長率に鈍化の兆候は見られません。令和6年7月31日現在、ビタミン検査用試薬が51品目、薬物濃度モニタリング用試薬が46品目、慢性疾患・ホルモン用試薬が45品目が承認されています。 2020年から2023年にかけて、それぞれ10、12、13、16のモデルが登場します。
承認された機器のうち、液体クロマトグラフィー質量分析(LC-MS)機器が大部分を占めており、合計33台の中国製LC-MS機器が承認された。 2番目に大きいグループは、国産のマトリックス支援レーザー脱離飛行時間型質量分析(MALDI-TOF MS)装置で、微生物検出、核酸検出、ペプチド検出用に合計25機種が承認されています。
* 液体クロマトグラフィー質量分析法は、液体クロマトグラフィー (LC) の物理的分離機能と質量分析法 (MS) の質量分析機能を組み合わせた分析化学技術です。
* マトリックス支援レーザー脱離飛行時間型質量分析法(MALDI-TOF MS)は、近年開発された新しいタイプのソフトイオン化バイオマス分析法であり、多数の細菌や真菌の同定に広く使用されています。
現在、中国における LC-MS の臨床応用は比較的短期間で行われており、まだ初期段階にあります。まだ欠点はたくさんあります。 IVD メーカー、医療検査機関、専門家や技術者、管理部門、ポリシーなど、多くの要因が臨床質量分析検出技術の応用に影響を及ぼす可能性があります。しかし、将来を見据えると、自動化とインテリジェンスの組み合わせは重要な開発方向となるはずです。 LC-MS/MS の臨床応用は今後も発展を続け、検出効率と精度が向上するとともに、医師が結果を解釈し、臨床上の意思決定を支援することにも役立つでしょう。
参考文献:
1.https://mp.weixin.qq.com/s/27drrM5lwawHRgRMWvHZRQ
2.https://mp.weixin.qq.com/s/pkd2I573on08syPkqdStOQ