権威あるジャーナル Cell Discovery からの新しい結果!上海交通大学のHong Liang氏のチームは、超低コストかつ完全自動で機能性タンパク質を設計するCPDiffusionモデルを提案した。

特色图像

タンパク質は生命活動の主要な実行者であり、その構造と機能の関係は常に生命科学分野の中心的なテーマです。近年、ディープラーニングの台頭により、その強力なデータ処理機能の助けを借りて、モデルはタンパク質の配列、構造、機能間のマッピング関係を学習し、より高い安定性、より強い結合親和性、より高い活性を備えた酵素を設計できるようになりました。タンパク質はタンパク質設計の効率を大幅に向上させ、研究開発コストを効果的に削減できます。

しかし、既存の手法では通常、大規模なデータセット上で多数のパラメーターを使用してモデルをトレーニングする必要があり、まばらな相同配列を持つ特定のタンパク質に一般化することが難しく、比較的単純な構造と機能を持つタンパク質しか生成できないことがよくあります。また、実験による検証によれば、設計されたタンパク質は一般に活性が低く、野生型タンパク質を超えるものは稀である。

この点に関して、上海交通大学自然科学研究所/物理天文学部/張江高等研究所/薬学部のホン・リャン研究グループの助研究員、周炳新氏らは、拡散確率モデルのフレームワークを設計した。 CPD拡散。このフレームワークは、タンパク質の骨格構造や活性部位などの複数の生成条件を組み合わせ、非常に低い学習コストとデータコストでタンパク質の配列、構造、機能間の暗黙的なマッピング関係を学習することで、多様なタンパク質配列を生成することができます。湿式実験検証でのテストに非常に高い成功率で合格します。

CPDiffusion のトレーニングと推論のプロセスには専門家の指導がほとんど必要ないことは注目に値します。高度に保存された領域を自動的に識別し、保存された領域の機能の決定に基づいて、非保存領域にさらに変更を導入して、生成される配列の多様性を高めることができます。この研究は「条件付きタンパク質拡散モデルが活性を高めた人工的なプログラム可能なエンドヌクレアーゼ配列を生成する」と題され、Nature の子会社である Cell Discovery に掲載されました。

研究のハイライト:

* この研究では、エンドヌクレアーゼ KmAgo および PfAgo の設計と生成に成功し、その DNA 切断活性は、これまでに発見されている中温野生型タンパク質の活性よりも大幅に 10 倍以上増加しました。

* この研究は一度に数百のアミノ酸を変更することができ、タンパク質工学研究にさらなる可能性をもたらします。

* 新しいタンパク質配列の多様な生成により、タンパク質ファミリーのデータベースが拡張され、科学者により豊富な研究リソースが提供されます。

論文リンク:
https://www.nature.com/articles/s41421-024-00728-2
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: サンプルの多様性を確保し、データの偏りを回避する

タンパク質の配列-構造-機能間のマッピング関係を学ぶために、CPDiffusion モデルは、CATH 4.2 で 20,000 個の野生型タンパク質を使用してトレーニングされました。さらに、研究者らは、生成されるタンパク質の特性についてのモデルの理解を強化するために、トレーニング セットに 694 個の pAgos タンパク質も追加しました。

これらのタンパク質は、ショート、ロング A、ロング B pAgo タンパク質を含む、以前の研究でまとめられた pAgo タンパク質ファミリーに由来しており、選択されたサンプルの多様性を確保して、データバイアスの問題の可能性を軽減します。さらに、データセット内のほとんどの WT タンパク質は中温性 pAgo であり、少数の Long-A pAgo タンパク質のみが好熱性タイプに属します。

モデルアーキテクチャ: pAgo タンパク質の 6 ステップの自動設計

機能性タンパク質の生成に対する CPD 拡散の効果を検証するために、研究者らは pAgo タンパク質に焦点を当てることにしました。 pAgo タンパク質は、原核生物の DNA 干渉プロセスで重要な役割を果たすエンドヌクレアーゼで、特定の一本鎖 DNA または RNA 配列を特異的に認識して切断することができ、診断分野で幅広い応用価値があります。さらに、pAgo タンパク質は基質に対する高い親和性と標的配列を特異的に認識する能力を備えているため、イメージングや遺伝子編集のための重要なツールとなっています。

研究者は CPDiffusion フレームワークを使用して新しい pAgo タンパク質を設計します。下の図aに示すように、まず、入力タンパク質 (オリジナル pAgo) の配列と情報がグラフ表示に変換され、タンパク質の分子生化学的およびトポロジカルな特性がアミノ酸レベルで示されます。図bに示すように、タンパク質は順拡散 (Forward Diffusion) 段階に入り、元のタンパク質の各アミノ酸タイプは特定の置換確率行列に従い、配列全体が均一に分布するまで一連のステップ (T ステップ) で破壊されます。

新規 pAgo 配列を設計するための CPDiffusion ワークフロー

上の図 c に示すように、逆拡散(Reverse Diffusion)段階では、研究者らは均等に分布した 20 種類のアミノ酸からランダムにアミノ酸をサンプリングし、タンパク質配列のノイズを徐々に除去しました。上の図 d に示すように、ノイズ除去プロセス中、研究者はいくつかの条件(野生型のバックボーン構造、ターゲットタンパク質のBackbone、二次構造Secondary Structure、野生型タンパク質に基づくアミノ酸置換マトリックスTransition Matrixなど)に基づいてプロセスをガイドしました。 、など)。モデルがタンパク質の三次元構造に暗黙的に含まれる等分散を確実に学習できるようにするために、研究者らは等変グラフ畳み込み層を使用して伝播関数を適合させました。その後、モデルはタンパク質骨格上の各アミノ酸位置の同時確率分布を生成します。学習された分布をサンプリングすることにより (サンプリング)、研究者は対応するタンパク質配列を取得できます (生成された pAgo)。上の図 e に示すように。

次に研究者らは、AlphaFold2 を使用して生成された配列の構造予測を実行し、RMSD や pLDDT などの指標を評価することで適切な配列を選別しました。やっと、以下の図 f に示すように、これらの適切な配列は、発現レベル、酵素活性、熱安定性などの実際の特性を確認するために、湿式実験 (実験的合成、特性評価、および評価) を通じて研究室でさらに確認されます。

湿式実験

実験の結論: 新しいタンパク質はより強力な活性と熱安定性を備えています。

研究者らは、さらに 2 セットの新しいタンパク質配列を生成するために、中温性 pAgo タンパク質 (KmAgo など) と好熱性 pAgo タンパク質 (PfAgo など) を候補タンパク質として使用しました。以下の図に示すように、生成およびスクリーニング フレームワーク CPDiffusion を使用して、研究者らは 27 個の新しい人工 KmAgo (Km-AP) と 15 個の新しい人工 PfAgo (Pf-AP) を生成することに成功しました。これらの新しく生成されたタンパク質は、元の野生型 (WT) テンプレートと比較して 50%-70% の配列同一性を持ち、他の非テンプレート WT タンパク質 (つまり、NCBI データベース内の他の WT タンパク質と比較して) 50%-70% の配列同一性を持ちます。 )40%よりも低い。
* KmAgo は中温性酵素であり、野生型の DNA 切断活性は比較的低いため、実用化の可能性は限られています。

※PfAgoは超高温酵素です。野生型の方がDNA切断活性は高くなりますが、通常は温度が下がると活性が弱まります。

CPDiffusion は、タンパク質配列の保存された特徴や表面バンドなどの重要な特性を首尾よく学習します。

言及する価値があるのは、CPDiffusion のトレーニングと推論のプロセスでは、専門家の指導はほとんど必要ありません。高度に保存された領域を自動的に識別できるため、保存されていない領域にさらに多くの変更を導入し、保存された領域の機能の決定に基づいて生成される配列の多様性を高めることができます。

さまざまな実験検証を通じて、以下の図に示すように、研究者らは、KmAgo に対して生成された新しい配列において、あらゆるシーケンスを表現できます。ほぼ 90% の新しい配列が DNA 切断活性を示し、70% 配列以上が野生型よりも高い活性を示し、その中で最も優れた新しい KmAgo 活性は野生型 KmAgo のほぼ 9 倍です。さらに、野生型 KmAgo と比較して、一部の Km-AP の熱安定性も強化されています。

e: 37 °C での 27 Km-AP の DNA 切断活性。
g: 27 Km-AP 間で異なる役割を果たすタンパク質の数
f:42℃で2分間および5分間インキュベートした後のWT KmAgoおよび27 Km-APのDNA切断活性。

以下の図に示すように、PfAgo に対して生成された 15 の新しい配列のうち、すべてが一本鎖 DNA 切断活性を発現および示すことができました。その中で、最も優れた性能を発揮した新規 PfAgo は、野生型 PfAgo の融解温度を約 100℃から約 50℃に低下させただけでなく、45℃で 2 倍の一本鎖 DNA 切断活性を示しました。 95℃では野生型 PfAgo の 2 倍、中温では野生型 KmAgo の 11 倍の切断活性を示します。

c: 45 °C での 15 個の Pf-AP の DNA 切断活性。
d: WT PfAgo および Pf-AP の融解温度
e: 15 個の Pf-AP 間で異なる役割を果たすシーケンスの数

要約すると、CPDiffusion は、野生型機能タンパク質から自動的に学習して、より強力な複雑なタンパク質配列を設計し、既存のタンパク質データベースを充実させ、タンパク質工学設計に多くのメリットをもたらすことができる、強力な新しいタンパク質配列設計ツールとして使用できます。

AI がタンパク質工学の未来を再構築する

AI を使用してタンパク質の謎を解読することは、生命科学研究のデジタル化プロセスにとって極めて重要であり、生命の本質を探求するこの競争において、中国の研究チームは常に前進し、貢献しています。この分野の傑出した代表者の一人として、この研究の責任著者であるHong Liang教授と彼の研究チームは、AIタンパク質による形質転換と創薬支援に長年注力してきました。具体的な研究内容には、タンパク質の構造予測と最適化、タンパク質の方向性修飾と設計、補助薬剤の設計と最適化などが含まれますが、これらに限定されません。チームは有益な成果を上げています。これまでに合計 77 件の論文が発表されており、その多くは Nature 誌に掲載されています。

ホン・リャン教授の研究グループのホームページ:

https://ins.sjtu.edu.cn/people/lhong/index.html

2021 年以来、Hong Liang 教授のチームは、次のようなタンパク質の分野で AI の利用を試みています。タンパク質工学で独自のモデルを構築し、機能する配列をエンドツーエンドで設計します。彼らは、上海人工知能研究所の研究者Tan Panと共同で、タンパク質事前トレーニングモデルに基づく微調整トレーニング手法FSFPを提案しました。この手法は、わずか20個のランダムなウェット実験データを使用してタンパク質事前トレーニングモデルを効率的にトレーニングできます。モデルの単一点突然変異予測陽性率を大幅に向上させるこのモデルは、タンパク質適応の小規模サンプル学習に適用でき、実用化において大きな可能性を示します。

詳細: 20 の実験データが AI タンパク質のマイルストーンを作成!上海交通大学と上海AIラボはタンパク質の事前トレーニングモデルを効果的に最適化するFSFPをリリース

ホン・リアン教授のチームは、ProtLGN と呼ばれる微小環境を認識したグラフ ニューラル ネットワークも開発しました。タンパク質の三次元構造から有益なアミノ酸変異部位を学習および予測し、異なる機能を持つ白質の単一部位変異および多部位変異の設計をガイドできます。実験結果は、設計された ProtLGN の単一点変異タンパク質が、対応する野生型タンパク質よりも 40% 以上優れていることを示しました。
詳細: タンパク質の方向性進化を導く実験データは存在しない。上海交通大学のホン・リャン研究グループは、微環境知覚マップニューラルネットワーク ProtLGN を発表した。

さらに、シンプルで効率的かつスケーラブルなアダプター SES-Adapter も導入しました。タンパク質言語モデルの埋め込みと構造配列の埋め込みを組み合わせて構造認識表現を作成すると、タンパク質言語モデルのパフォーマンスを大幅に向上させることができます。

上記の研究は、タンパク質設計におけるディープラーニングの強力な可能性を示しています。タンパク質分野でのディープラーニング技術のさらなる応用により、タンパク質工学研究がより広範な開発領域を迎えることは間違いありません。

参考文献:
https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQ
https://ins.sjtu.edu.cn/article