最高の技術よりも8倍高速:浙江大学のHou Tingjun氏らは、タンパク質ポケットに基づく3D分子生成モデルResGenを提案

特色图像

作者:ビンビン

編集者: Li Baozhu、三陽

浙江大学と江研究所の研究チームは、タンパク質ポケットに基づく3D分子生成モデル-ResGenを提案しました。これまでの最適技術と比較して、速度が8倍向上し、結合が低く、薬物のような多様性が高い分子を生成することに成功しました。分子。

過去には、ペニシリンなどの革新的な薬の発見は、古代のレシピや実験的事故に依存することがよくありました。長年にわたる分子生物学と計算化学の進歩により、医薬品設計パラダイムはブラインドスクリーニングから合理的設計へと変化してきました。

それにもかかわらず、医薬品の開発と設計は依然として多段階のプロセスであり、リンクが長く、各段階の効率を向上させることには大きな価値があります。近年、AIやビッグデータなどの技術の普及に伴い、AIを活用した創薬設計は実験を通じてより成熟し、医薬品の研究開発のさまざまな面で効率と品質の向上を目指した改革が進んでいます。

その中でも、高品質の分子生成モデルは、リード化合物の発見効率を効果的に向上させることができます。現在、ほとんどの分子生成作業にはリガンドベースの方法 (LBMG) が使用されていますが、この方法には分子とターゲット間の相互作用モードを考慮できないなど、多くの制限があります。したがって、研究者は、標的構造に基づいて対応する分子を生成する構造ベース分子生成法 (SBMG) にますます注目を集めています。

浙江大学の侯廷軍教授、謝長宇教授、志江研究所Chen Guangyong と彼のチームは、タンパク質ポケットに基づく 3D 分子生成モデル - ResGen を提案しました。このモデルは並列マルチスケール モデリング戦略を採用しており、タンパク質ターゲットとリガンドの間のより高いレベルの相互作用を捕捉し、より高い計算効率を達成できます。

分子生成プロセスは、タンパク質ポケットの形状をより適切に説明するために、グローバル自己回帰およびアトミック自己回帰として定式化されます。結果は、ResGen が既存の最先端の方法よりも合理的な化学構造と優れた標的親和性を持つ分子を生成することを示しています。

紙を入手してください:

https://www.nature.com/articles/s42256-023-00712-7

公式アカウントのバックエンドにある「3D 分子生成」に返信して完全な PDF を入手してください

データセット: トレーニングセットとテストセット間の配列類似性は 40% 未満です

この研究で使用されたトレーニング データ セットは CrossDock2020 で、タンパク質と小分子の相互作用研究、特にタンパク質ポケットへの分子の結合能力を評価するために使用されます。

データセットの初期データには、2,200 万を超えるタンパク質-リガンドのペアが含まれており、トレーニング セットとテスト セットの間の配列類似性が 40% 未満であることを確認するために、研究者らはタンパク質と小分子のペアをスクリーニングして約 100,000 個のペアを取得しました。テストセットには 100 個のプロテインポケットが含まれています。

データセットのリンク:

https://1lh.cc/DjuQrx

ResGen モデル: 2 つの階層型自己回帰

ResGen モデルは、タンパク質ポケットの認識に条件付けされた分子生成問題を、2 つのスケール、つまり地球規模のスケールと原子成分のスケールでの自己回帰問題として定式化します。このうち、グローバル自己回帰 (global autoregression) は、ResGen によって生成された各原子が、前のステップで生成された分子フラグメントとタンパク質ポケット構造に基づいていることを意味し、アトミック自己回帰 (atomic autoregression) は、新しく追加された原子座標とトポロジーを順次生成します。


ResGen は、完全な分子生成プロセスを段階的なサンプリングに分解し、それによって自己回帰的な方法で分子全体の生成を実現します。さらに、より高次の相互作用をより適切に捕捉し、計算コストを削減するために、研究チームは、この 3 次元条件生成問題に並列マルチスケール モデリング技術を導入しました。

ResGen フレームワーク図


※図Aの模式図:分子生成の過程で、成長点を徐々に確認し、原子を追加(グローバル自己回帰)、原子の位置を確認し、エッジを追加(原子自己回帰)。
* 図 B の概略図: ポケットと参照分子は、原子の特徴 (ベクトル) と原子座標 (スカラー) として表されます。
* 図 E は分子生成プロセスを示しています。 i の灰色の点群は、位置情報を含む新しく生成された原子を表します。ii の緑色の点群は、原子の種類を補足するもので、各ステップの焦点原子 (成長点) を表します。数値は、各原子が成長サイトである確率です。

効果検証:現行最高機種を上回る

ずっと、タンパク質ポケットに基づく 3D 分子生成モデルには 2 つの広く使用されているテスト指標があります。それは、モデルが異なるタンパク質ポケット内のリガンドの特徴的なトポロジー分布 (つまり、ターゲットの分子グラフ分布) を学習するかどうか、およびタンパク質ポケット内のリガンドの分布を学習するかどうかです。ポケット。幾何分布(つまり、原子の位置と立体構造の妥当性)。


これに関して、研究チームは、ResGen と既存の最先端モデルについて一連の評価を実施しました。


最初のテスト指標として、チームは、テストセット内の標的および実際の治療標的向けに設計および生成された分子の結合エネルギーと薬物のような特性を評価しました。


2 番目のテスト指標として、チームは構造合理性実験を設計し、タンパク質と小分子間の相互作用パターンを分析しました。

テストセットでの分子の生成: モデルの一般化能力の評価

CrossDock テストセットの上位 5 つの分子特性

比較結果は、ResGen で生成された分子が結合エネルギーや薬物類似性などのほとんどの指標で優れていることを示しています。 グラフBP  Pocket2Mol によって生成された分子。

グラフBP:3D グラフ ニューラル ネットワークを使用して意味情報が抽出され、自己回帰フロー モデルを通じてアトムが順次生成されます。特定のタンパク質に結合する 3D 分子は、特定の種類と位置の原子を特定の結合部位に 1 つずつ配置することによって生成されます。

ポケット2モル:3 次元タンパク質ポケットの化学的および幾何学的特徴をモデル化し、ポケットの状態に基づいて新しい 3D 薬剤候補をサンプリングするための新しい効率的なアルゴリズムを採用します。

上の図に示すように、Vina スコアは、生成された分子と対応するタンパク質ターゲットの結合エネルギーを表します。この指標は、モデルがポケット内の化学環境を感知しているかどうかをある程度反映します。

Vina Score での ResGen のパフォーマンスは次のことを意味します。ResGen は、ターゲットにより強固に結合する分子を生成する可能性が高く、研究チームは、これは、ResGen が構造の特徴付けにマルチスケール モデリングを使用しているためである可能性があると考えています。この構造は、タンパク質ポケットとリガンドの間の高次の相互作用 (フラグメントと残基の相互作用など) を捕捉しやすいためです。


さらに、有機化合物が創薬候補として発展できるかどうかは、タンパク質との相互作用の強さだけでなく、その創薬性や合成可能性にも依存します。したがって、QED、SA、Lipinski、LogP などのドラッグライク指標が評価に含まれました。 ResGen は SA およびリピンスキー指標で最高のスコアを持っています。ResGen は、認識されていないタンパク質ポケットに対して容易に合成される薬物のようなリガンドを生成する可能性が高いことが示されています。

実際のターゲットに対する分子生成: 現実世界のシナリオでのパフォーマンスの評価

実際の薬剤設計シナリオにおけるモデルのパフォーマンスを評価するために、研究チームはプロテインキナーゼ B の AKT1 と CDK2 (サイクリン依存性キナーゼ 2) を例として取り上げ、それらの標的構造と実験的に活性なリガンド化合物を整理し、ランダムに A不活性小分子のバッチを陰性対照として選択した。

上図は各分子グループの結合親和性の分布を示しており、分布が左になるほど結合エネルギーの絶対値が大きくなり、親和性が高くなります。結果は、ResGen (緑色) によって生成された分子は、ネガティブ コントロール (ランダム) やその他の既存の最先端モデルによって生成された分子よりもスコアが高いだけでなく、全体の分布が Active よりわずかに優れていることを示しています。

結合長分布実験: 構造の妥当性の評価

構造合理性実験では、研究チームは直接生成された分子構造と従来の構造ソフトウェアによって生成された分子構造の間の二乗平均平方根偏差を計算し、生成されたサンプルとトレーニング分子の間の結合長分布を比較しました。

7 つの結合長のうち、ResGen は 5 つの結合長の中で最高のパフォーマンスを示し、GraphBP よりも大幅に優れています (約 10 倍)。 ResGen は、他の 2 つの既存の最先端モデルと比較してより滑らかな立体構造を生成し、タンパク質ポケット内の複雑な幾何学的分布を捕捉する強力な能力を強調しています。

異なる手法の結合長分布とトレーニングセットの結合長分布の比較

アルファフォールド  予測構造解析: 相互作用に対するモデルの感度を評価する

ResGen が標的の幾何構造に依存する相互作用モードとタンパク質と小分子の相互作用に対するモデルの感度をうまく学習したかどうかを検証するために、研究チームは X 線結晶構造に基づいて 2 セットの分子を生成し、AlphaFold が予測したそして、これら 2 つのグループの分子の構造的特徴を比較しました。


結晶構造と AlphaFold の予測構造に基づいて生成された分子。白い配位子は共結晶配位子であり、X Å は予測された構造とアライメント後の実際の構造の間の RMSD です。最初の列の白い球は、結合部位の可能性を表します。


AlphaFold によって予測された立体構造は、結晶立体構造に存在するポケットを「閉じる」ため、モデルは元のポケットの位置で完全な分子を生成できなくなり、代わりに新しく形成された空洞内に小さな断片が生成され、分子の生成プロセスが示されています。 ResGen の量は、特定のタンパク質ポケットに敏感に依存します。

AlphaFold の予測された立体構造で形成されたポケットは、結晶ポケットと比べて差異が少ないですが、それでもモデルはこの変化を捉えることができます。 ResGen によって生成された分子は、AlphaFold によって予測された立体構造内の空洞構造の大部分を占めます (図の赤い円で示されているように)。


この実験は、標的構造に対する ResGen の感度を実証し、SBMG 戦略にとって正しいタンパク質構造の重要性を示唆しました。

AlphaFold2 はタンパク質の構造を推測します》詳細なチュートリアル:

https://openbayes.com/console/public/tutorials/m6k2bdSu30C

AlphaFold タンパク質構造データセット:

https://openbayes.com/console/public/datasets/ETTgyY1oZat/1/overview

「原文を読む」をクリックすると、データセットをダウンロードせずにワンクリックで入力できます。

Hou Tingjun: コンピューター支援医薬品設計の中核問題の研究に尽力

分子生成は、典型的な多目的最適化タスクです。私たちが生成する分子は、優れた親和性を備えているだけでなく、優れた創薬可能性、低毒性、高合成性なども備えている必要があります。

——侯廷君

従来の創薬プロセスでは、創薬イノベーションには長い研究開発サイクル、高額な投資、高いリスクなどの問題がありました。リード化合物の発見と最適化は、創薬プロセス全体の中で最も困難な段階であり、化合物の化学空間という大きな問題 (10 の 60 乗に達する可能性もあります) を克服する必要があるほか、スクリーニング、最適化、評価プロセスも必要になります。非常に複雑な鉛化合物。

ディープラーニングとビッグデータ分析を通じて、AI は大規模なバイオインフォマティクス データ、巨大なデータセットに隠されたパターンと関連性を効率的に処理および解釈し、潜在的な薬剤標的の特定の精度を向上させ、薬剤のスクリーニングと設計プロセスを加速できます。

AIを活用した創薬研究開発の分野に向き合い、Hou Tingjun 教授と彼のチームは、コンピュータ支援創薬の中核問題を中心とした最先端の学際的研究を長年にわたって実施してきました。そして、次のような一連の貴重な成果を達成しました。

※分子ドッキング仮想スクリーニングに関しては、グラフ表現学習に基づく新しいタンパク質-低分子相互作用スコアリング手法IGNと深層学習に基づく高スループット分子ドッキングフレームワークが提案されている カルマドック  待って。 

※インテリジェントな分子生成・最適化の観点では、リガンドに基づく多重制約分子生成手法MCMGや、位相面や幾何構造に基づく3次元分子生成手法SurfGenが提案されています。

※分子の創薬可能性と安全性評価の観点から、マルチグラフアテンションモデルに基づく毒性予測手法MGAと創薬可能性予測ソフトウェアシステムADMETlab2.0が提案されました。

さらに、Hou Tingjun教授のチームは、部分構造マスキングに基づくAIモデル解釈可能性手法SMEも開発し、AIモデルの解釈可能性に対するソリューションを提案しました。

医薬品の研究開発における AI の大きな価値はますます顕著になってきていますが、新興研究であるため、実際の実装には対応する課題が依然として存在する可能性があり、これらは将来の重要な研究の方向性となるでしょう。

この点に関して、侯廷軍教授は次のように述べています。AIを活用した特性予測手法の予測能力、仮想スクリーニングにおけるAIを活用したスコアリング機能の予測能力、主要な創薬可能性パラメータや毒性エンドポイントの予測精度をいかに効果的に向上させるかがAI分野で注目される。 -今後の創薬支援と課題。

参考文献:
https://mp.weixin.qq.com/s/cxpbeGmrHULcWsbVbvQmJA