天然薬の有効成分を包括的に調査するために、中南大学のLiu Shao教授のチームはIMN4NPDプラットフォームを構築しました。

特色图像


1806 年、23 歳のドイツ人薬剤師セルチュルナーが初めてアヘン用ケシから単量体モルヒネを単離し、現代の自然医薬品化学の研究が始まりました。これに基づいて、ドイツの化学者フリードリッヒ ヴェーラーは 1828 年に尿素の人工合成に成功し、これは有機化学という学問の正式な誕生でもありました。人類が生物活性天然物(NP)を研究し続けてきたことが、有機化学という学問の確立につながったと言えます。

いわゆる生理活性天然物(NP)は、実際には自然界で時間をかけて進化した物質であり、生理活性物質や実用的な医薬品の開発の重要な供給源です。医薬品開発の過程において、NP はがんや感染症の治療薬の革新に多大な貢献をしてきました。しかし現在、NP はスクリーニング、分離、特性評価、最適化などの面で依然として技術的な障害に直面しています。中でも、複雑な混合物から NP を分離することは最も深刻な課題の 1 つであり、医薬品研究における大きなボトルネックにもなっています。

このボトルネックを解決するには、  中南大学Xiangya病院薬剤部のLiu Shao教授のチームは、天然医薬品の有効成分を包括的にマイニングできる統合分子ネットワーキングフレームワーク(NP非複製のための統合分子ネットワーキングワークフロー、IMN4NPD)を革新的に確立した。分子ネットワーク内の広範なクラスターの非複製を加速するだけでなく、既存の研究手法では無視されがちな自己ループやペアノードへのアノテーションも提供します。関連する研究結果は最近、米国化学会 (ACS) の雑誌「Analytical Chemistry」に掲載されました。

用紙のアドレス:
https://doi.org/10.1021/acs.analchem.3c04746
公式アカウントをフォローし、バックグラウンドで「Natural Medicine」に返信すると全文PDFが入手できます

IMN4NPD: スペクトル類似性によって駆動される分子ネットワークのための複数の計算ツールの統合

IMN4NPD の中核となる動作原理は、スペクトルの類似性によって駆動される分子ネットワークです。NPClassifier、molDiscovery、t-SNE ネットワークなどの複数の計算ツールと統合および連携して、研究者が分子ネットワーク ノードのアノテーションを簡素化しながら、特定のクラスの化合物を迅速に識別できるようにします。
* NPClassifier: ディープ ニューラル ネットワークに基づく自然製品構造分類ツール
※molDiscovery:質量分析データベースの検索手法

一般的に、IMN4NPD のワークフローは 3 つのステップに分割できます。

最初のステップ、生の LC-MS データは前処理されて、分子ネットワークまたは特徴ベースの分子ネットワークが生成されます。その後、ディープ ニューラル ネットワークに基づく NP 分類ツール SIRIUS が、NPClassifier を通じて複合クラスを系統的に分類しました。

2番目のステップは、この研究では、GNPS (Global Natural Product Social Molecular Networking) を介して MS/MS スペクトル データベースに基づいて逆複製実験を実行し、その後、molDiscovery を介してコンピューター データベースに基づいて逆複製実験を実行しました。

3番目のステップは、研究者らは、MS/MS スペクトル特徴の類似性を利用して t-SNE ネットワークを生成し、各ノードで化合物を化学的に分類して、自己循環ネットワーク内に分布する特定の化合物カテゴリを正確に特定して複製しました。

IMN4NPD ワークフロー図

ユーザビリティ評価: イソキノリン類似体を探索し、分子ネットワーク内の特定の化合物クラスターを迅速に特定します。

IMN4NPD ワークフローのパフォーマンスと利点を評価するために、この研究ではハスの種子の心臓のエタノール抽出物を再分析しました。蓮の実心は、蓮の莢の胚芽部分で、ビスベンジルイソキノリン、モノベンジルイソキノリン、アポルフィンなどのさまざまなアルカロイドが豊富に含まれており、不眠症、精液漏出、不整脈、高血圧などの症状の治療に使用されます。

この研究では、実験的な MS/MS スペクトル データベースに基づいて、最初に分子ネットワーク内の個々のノードを化学的に分類し、分子ネットワーク内の特定の化合物クラスターを迅速に特定し、新しいイソキノリン類似体を探索しました。研究者らは、分子ネットワーク内の各特徴マップの化学分類結果を調べた結果、イソキノリン類似体に対応する特定の化合物クラスターを簡単に見つけることができ、同時にイソキノリン化合物が分子内に主に 4 つのクラスターに分布していることを発見しました。ネットワーク内で。

イソキノリン化合物の分布図

この研究では、GNPS データベースなどの実験的な MS/MS スペクトル データベースでは、大規模なクラスター内の限られた数の特徴しか再現できないこともわかりました。したがって、この研究では、構造データベースのマッチングに最先端のシリコン フラグメント アルゴリズム molDiscovery を使用しました。実験およびインシリコ MS/MS スペクトル データベースに基づくこの重複排除方法は、分子ネットワーク、特に大規模クラスター内の物質構造にタイムリーかつ便利に注釈を付ける能力を強化します。

モノベンジルイソキノリン アルカロイドのクラスター A を例にとると、このクラスターは 36 個のノードで構成され、そのうち 7 個のノードのみが MS データベースでアノテーションが付けられ、35 個のノードが構造データベースでアノテーションが付けられ、8 個のノードが MS データベースと構造データベースの両方でアノテーションが付けられます。 .ノード。 m/z 344.1855 ノードがあることに注目する価値があります (tR=7.6329) は MS 構造データベースによって完全に注釈が付けられており、候補構造が 3'-O-メチル-4'-メトキシ-N-メチルコクラウリン (上記) であることが示されています。

さらに分析すると、このノードは継続的に NH を失いました。3CH3. CH3ああとH2その後、O、リング切断、アルファ切断、ベータ切断が発生し、m/z 107.0496、137.0597、151.0757、175.0750、205.1098、235.0752、267.1017、299.1271、および 312.1590 のフラグメントが生成されました。 、それぞれイオン。

構造データベースにより特定、m/z 448.1963 (tR = 1.6287)、ノードは N-メチルノルコクラウリン 7-O-グルコシドです。別の m/z 312.1593 (tR = 7.3621) ノードは、1 つのモノベンジルイソキノリンを含む 4 つの候補構造を示します。 m/z 344.1855 ノード(tR=7.6329) m/z 190.0862 (C) のノードと比較11H12いいえ2) にフラグメントイオンが存在することは、これがメチレンジオキシ基であることを示しています。

研究結果:ディープニューラルネットワークに基づいて、t-SNEネットワークの観点から3つの主要な研究アルゴリズムを比較

MolNetEnhancerと比較すると、IMN4NPD は、ディープ ニューラル ネットワークに基づく NP 分類ツール NPClassifier を使用して、分子ネットワーク内の各特徴を個別に分類します。分子のクラスター全体やファミリーではなく。この研究では、改良されたコサイン類似度を使用して類似度行列を計算し、t-SNE ネットワークを生成します。同時に、この研究では NPClassifier を使用して MS/MS スペクトル データに基づいて各ノードを分類し、これらの分類を t-SNE ネットワークにマッピングします。

従来の分子ネットワークの観点では、イソキノリンは一般に 3 つの大きなクラスター (クラスター AC) と 1 つの小さなクラスター (クラスター D) で構成されます。 t-SNE ネットワークの観点からは、イソキノリンの 4 つのクラスター ノードが密接にグループ化され、異なるクラスター領域を形成していることが明らかです。ただし、t-SNE ネットワークの観点からは、分子ネットワーク内のクラスター A がさらに 2 つの小さなクラスターに分割できることは注目に値します。また、t-SNE はイソキノリン ノードを効果的に特定できるため、関連するノードの構造解析作業が大幅に容易になります。

t-SNE マップにおけるイソキノリンの 4 つのクラスター領域

修正コサイン類似度法には、化学的に修飾された化合物のスペクトルに制限があります。この研究では、t-SNE ネットワークを生成するために Spec2Vec や MS2DeepScore などの類似度アルゴリズムも選択しました。 Spec2Vec に基づくと、イソキノリンは依然として分子ネットワーク内に 4 つの主要なクラスター領域を形成します。

ただし、MS2DeepScore に基づくと、イソキノリンの大きなクラスター A と B のノードは非常に近接しており、いくつかのクラスター領域を形成していますが、大きなクラスター C のノードはグラフ全体に分散しているため、その後の分析に課題が生じています。

さまざまなスペクトル類似性アルゴリズムによって生成された t-SNE スペクトルの比較

興味深い現象は、m/z 296.1646 ノード (t= 11.54) 修正コサイン類似度および MS2DeepScore 類似度に基づく t-SNE グラフでは、どちらもイソキノリン関連ノードのクラスタリング領域から遠く離れていますが、Spec2Vec スペクトル類似度に基づく t-SNE グラフでは、このノードはイソキノリン関連ノードのクラスタリング領域から遠く離れています。大きなクラスター A のクラスター領域が隣接しています。このタイプの自己スイッチング ノードはイソキノリン化合物の一種である可能性があり、さらに比較したところ、このノードがアポルフィン アルカロイドであることが確認されました。

したがって、化合物の化学分類と t-SNE ネットワークは、それぞれ特徴に関する異なる情報を提供できるため、偽陰性の発生をある程度まで減らすことができます。

さらに、Spec2Vec スペクトル類似度の t-SNE ネットワークに基づくと、m/z 298.1438 (t= 7.02) および m/z 298.1438 (tR = 7.60) 2 つのノード。これら 2 つのノードは分子ネットワーク内の自己切り替えノードとペア ノードです。イソキノリン化合物として分類されていませんが、構造的にはイソキノリン マクロクラスター A に似ています。さらに分析すると、m/z 298.1438 (tR = 7.02) は既知のアポルフィン アルカロイド - ノルヌシフェリジン、m/z 298.1438 (tR = 7.60) は、ヌシフェリンおよびノルヌシフェリジンに類似したアポルフィン アルカロイドも示しています。

上記の 3 つのノードの研究により、それらはすべてアポルフィン アルカロイドに属し、モノベンジルイソキノリン アルカロイドとは異なることが判明しました。修正コサイン類似度と MS2DeepScore 類似度を使用すると、これら 3 つのノードはモノベンジルイソキノリン アルカロイド関連ノードの大規模クラスター A のクラスター領域から遠く離れていますが、Spec2Vec に基づくと、これら 3 つのノードは大規模クラスター A の近くに存在する可能性があります。

この違いは、イソキノリンの類似構造を正確に捕捉する Spec2Vec スペクトル類似性の優れた能力を示しています。

天然物研究における人工知能の応用が加速

近年、さまざまな最新技術の急速な発展の恩恵を受けて、バイオインフォマティクス、メタボロミクス、コンピューターサイエンスなどを統合した、天然生理活性分子の研究において、LC-MS/MS および NMR 技術に基づく多数の手法が登場しました。対象技術の戦略と新しい方法。特に、人工知能と機械学習アルゴリズムが天然産物の研究に統合され始めているため、研究者にはさらに新たな生産性革命がもたらされています。

当初、人工知能の応用は、有機分子のデジタル化と、NP 化学空間をマッピングするための次元削減技術の使用に焦点を当てていました。その後、研究者らは NP の生物学的機能を予測するための機械学習バイナリ分類器を開発しました。現在、ニューラル ネットワーク アーキテクチャはゲノム マイニングや分子設計に使用され始めており、創薬や分子情報学の分野では深層学習アルゴリズムの人気が高まっています。

したがって、近年、産学研究のあらゆる分野で関連研究のペースが加速していることがわかります。 2022 年に、国立スーパーコンピューティング広州センターは、中山大学、星耀科技大学、マサチューセッツ工科大学、ジョージア工科大学と提携し、「天河 2 号」の強力なコンピューティングおよびストレージ機能に基づいて、深層学習駆動の生物学的逆合成パスナビゲーションツール BioNavi-NP が提案されています。

企業の世界でも天然物に関する研究が加速しています。 2023年に、タスリー・ファーマシューティカル・グループとファーウェイ・クラウドは協力関係に達し、両社は天然物などに関する最新の研究データを統合する予定です。漢方薬分野における大型垂直モデルを共同構築する。

しかし、天然物のデータベースは科学研究における大きな課題のままです。現在、世界の主流の天然物データ リポジトリには、Minimal Information on Biosynthetic Gene Clusters (MIBiG)、Natural Product Atlas (NP Atlas)、Global Natural Product Molecular Network (GNPS)、および Natural Products Magnetic Resonance Database (NP-MRD) が含まれます。 、などがありますが、これらのデータベースはカバー率が低く、一般的なデータエラーがあり、天然物の創薬における人工知能の進歩を妨げてきました。

近年、中国の科学者屠友佑氏、日本の科学者大村智氏、アイルランドの科学者ウィリアム・C・キャンベル氏など、天然物の全合成の功績を称えて多くの研究者がノーベル化学賞にノミネートされている。天然物の重要性が強調され続けるにつれ、天然物の研究における人工知能の統合がアクセルボタンを押そうとしていることは疑いの余地がありません。