タンパク質工学は、現代のバイオテクノロジーと製薬研究において重要な役割を果たしています。タンパク質工学では、タンパク質のアミノ酸配列を変更することで、酵素の触媒効率の向上、薬物の親和性の向上、熱安定性の向上など、タンパク質に新しい生化学的特性を改善または付与することができます。これらの改善は、新薬の開発、病気の治療、バイオ製造の効率向上にとって非常に重要です。
タンパク質工学では、数万の候補変異体から最適な変異体をスクリーニングする必要があります。有利な変異とは、タンパク質の 1 つ以上の生化学的特性を改善し、タンパク質の安定性、親和性、触媒効率を高めることができる遺伝子変異を指します。により、特定のアプリケーションにより適したものになります。しかし、さらに、適応性の高い変異体を実験的に検証するにはコストと時間がかかります。また、複数の有益な変異の組み合わせは、マイナスのエピジェネティック効果の影響を受けることがよくあります。タンパク質の機能は突然変異により低下します。これらの要因により、効率的なタンパク質の設計はさまざまな程度に複雑になります。
近年、ディープラーニングによる予測・スクリーニング手法が検証・実用化されており、大量のデータを解析してタンパク質の配列、構造、機能の関係を学習することで、タンパク質設計の精度と効率を向上させることができます。ただし、ほとんどの方法は、タンパク質配列の特徴を抽出するために多重配列アライメント (MSA) またはタンパク質言語モデル (PLM) に基づいており、多くの制限があります。たとえば、相同性情報によって制限される複数の配列アライメントの品質に依存する場合や、大量のデータと複雑なモデルが必要となり、トレーニング コストが高くなります。さらに、事前トレーニングされたモデルを新しいタスクに直接適用すると、モデルの一般化と表現能力に大きな課題が生じます。
この目的を達成するために、上海交通大学のホン・リャン氏の研究グループは、Pと呼ばれる手法を開発した。腐敗LGN の微小環境対応グラフ ニューラル ネットワーク、タンパク質の三次元構造から有益なアミノ酸変異部位を学習・予測することができ、機能の異なる白質の単一部位変異および多部位変異の設計を導き、40%のPを超える腐敗LGN で操作された単一点変異タンパク質は、対応する野生型タンパク質よりも優れた性能を発揮しました。その成果はJCMに掲載されています。
用紙のアドレス:
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036
公式アカウントをフォローし、バックグラウンドで「Protein Design」に返信すると全文PDFが入手できます
P腐敗LGN は、グラフ ニューラル ネットワークに基づくタンパク質表現学習モデルです。そのコア アーキテクチャは次のとおりです。
P腐敗LGN アーキテクチャ
* kNN グラフ (k 最近傍グラフ):
タンパク質のアミノ酸残基をグラフのノードとして入力し、k-最近接アルゴリズムを通じてエッジグループとアミノ酸残基の間の空間距離を決定します。これにより、タンパク質のトポロジー構造が構築され、後続のグラフの基礎が提供されます。ニューラルネットワーク処理。
* 等変GNN (等変グラフニューラルネットワーク):
3 次元では、タンパク質の構造が回転したり反射したりすることがあります。コア ネットワーク層としての等変 GNN は、この回転不変構造を認識して維持するように設計されています。つまり、タンパク質グラフがどのように回転されても、ネットワークの出力は同じタンパク質構造に対して一貫している必要があります。
* ノードの埋め込み:
タンパク質のグラフ表現では、機械学習モデルがノード間の複雑な関係を捉えて理解できるように、各アミノ酸残基がグラフ内のノードとして表現されます。
* 出力レイヤーとスコア (読み出しレイヤーとスコア):
等変 GNN によって学習されたノード表現は、有益な変異部位を特定し、タンパク質の機能や構造に対する変異の潜在的な影響を予測するために使用されます。同時に、モデルの最後の層として、予測結果が定量的なスコアに変換されます。
* 検証:
酵素結合免疫吸着検定法 (ELISA)、示差走査蛍光熱安定性分析 (DSF) などの実験生物学的手法を使用して、モデルによって予測された変異体を実験的に検証し、その生物学的機能をテストします。
P腐敗LGN のトレーニング プロセスを以下の図に示します。これには、トレーニング、予測、モデルの微調整が含まれます。
P腐敗LGN の事前トレーニングと予測プロセス
* 自己監視型事前トレーニング:
P腐敗LGN はまず野生型タンパク質に対して自己教師ありの事前トレーニングを実行します。タスクは AA タイプのノイズ除去です。
入力グラフに含まれる 3 次元座標情報はノード属性の一部であり、タンパク質の 3 次元空間におけるアミノ酸残基の位置をより正確に表すために使用されます。
3 次元座標情報とアミノ酸の物理的および生化学的特性 (アミノ酸の種類、SASA、B 因子など) が合わせて、入力グラフのノードとエッジのプロパティを構成します。これらのプロパティは、各ノード (アミノ酸残基) が他のノードまでの空間距離に基づいて相互に接続される KNN グラフを構築するために使用されます。
P腐敗LGN の自己教師あり学習プロセス
* 等変グラフ畳み込み層 (EGC):
等変グラフ ニューラル ネットワーク (EGC レイヤー) は、入力タンパク質グラフを処理するための事前トレーニングで使用されます。この層を通じて、モデルは回転および平行移動変換下でも変化しないノードの埋め込みを学習し、さまざまなタンパク質構造の処理に役立ちます。
EGC 層はグラフ ニューラル ネットワークの中核であり、グラフ構造データを処理し、タンパク質の 3 次元構造を理解するために重要なタンパク質の空間構造の変化に対する感度を維持することができます。
自己教師あり学習中、EGC レイヤーはノイズの多い野生型タンパク質グラフを入力として受け取り、アミノ酸残基間の空間的関係を考慮したノードの埋め込み表現を出力します。
* ノイズの多い入力属性:
トレーニング プロセス中に、野生型タンパク質の入力プロパティにノイズが注入され、自然界のランダムな突然変異がシミュレートされます。
* ゼロショット予測:
青い矢印は、タンパク質の突然変異が考慮される場合、モデルは事前トレーニング段階で学習した知識を使用して、タンパク質の機能に対する突然変異の考えられる影響を予測することを示します。
* 湿式生化学的評価:
突然変異体の予測とウェット実験評価を組み合わせることで、事前トレーニングされたモデルを更新して、特定のタンパク質や機能によりよく適合させることができます。
* 微調整:
図の緑色の矢印は、湿式実験の評価と組み合わせることで、特定のタンパク質と機能に応じて事前トレーニング済みモデルを更新および最適化し、予測の精度と適応性を向上できることを示しています。
生物学的な事前情報をさらに使用してモデルの一般化と表現能力を向上させるために、研究者らは次の 3 つの追加の手段も講じました。 * 自然界のランダムな突然変異を模倣するために入力アミノ酸タイプにノイズをかける。 アミノ酸の損失関数スコアリング メカニズムにおいて。ノード予測、ラベル スムージングは、類似したアミノ酸間の置換を促進するために導入されます。
* マルチタスク学習戦略を利用して、事前トレーニング モデルが複数の予測ターゲットを学習できるようにし、それによって「多目的」グラフ表現学習モデルをトレーニングします。
Pを確認するには腐敗タンパク質変異体の活性の LGN 予測の精度を高めるために、この研究では、複数のタンパク質のさまざまな生物学的機能について広範な検証作業を実施し、P腐敗VHH 抗体、さまざまな蛍光タンパク質 (緑、青、オレンジの蛍光タンパク質など)、エンドヌクレアーゼ (KmAgo) を含む LGN の普遍性は、熱安定性、結合親和性、蛍光輝度、単一 DNA 切断活性およびその他の一般的な機能をカバーします。タンパク質工学における修飾ターゲット。
実験データは、同様のタンパク質に関する実験データが存在しない、または少数の実験データしかない場合でも、P腐敗LGN は依然として 40% の単一点突然変異の予測成功率を達成することができ、場合によっては複数の生物学的機能を同時に改善することができます。
研究者はPを使用します腐敗蛍光強度に特化して最適化されたスコアリング関数を開発するために、緑色蛍光タンパク質 (GFP) 向けに微調整された LGN モデル。微調整トレーニングのために、Deep Mutation Scan (DMS) データベースから 1,000 個のタグ付き GFP 変異体がランダムに選択されました。これにより、蛍光強度の変動を予測する際のモデルの精度が向上しました。
蛍光タンパク質の実験結果
* タンパク質の構造は左側に示されており、赤い球は変異したアミノ酸残基を強調表示しています。
* 右側は、さまざまな変異体と WT を比較した蛍光強度データを示します。
パネル a は、少数のタグ付き緑色蛍光タンパク質 (GFP) バリアントから学習された、機能的に特異的なフィットネス スコア関数の有用性を評価します。 10人の変異体のうち、そのうち 5 つが野生型 (WT) よりも高い蛍光強度を示し、その中で最も性能の良い変異体の蛍光強度は WT の 2 倍に達しました。
さらに、この実験では、GFP とは異なるタンパク質ファミリーに由来し、異なる活性領域を持ち、約 21% 配列相同性を持つオレンジ色蛍光タンパク質 (orangeFP) に対する同じスコアリング機能のパフォーマンスを調べました。研究者らは微調整された P を使用しました。腐敗LGN は、orangeFP の単一点変異体をランク付けし、ウェット実験発現およびテスト用に上位 10 個の変異体を選択します。こうした変異体の中には、7 個は WT よりも高い蛍光強度を示し、モデルの強力な遊走能力を実証する結果となりました。
実験者はPを使用します腐敗実験データなしで約 30,000 個の未標識タンパク質構造で事前トレーニングされた LGN モデルは、湿式実験評価に対する適合性予測が最も高い VHH 抗体変異体の上位 10 個の変異体を選択しました。
P腐敗LGN 設計の VHH 抗体の結果
(a): 左側は VHH 抗体の構造を示し、右側は VHH 抗体とその単一点変異体の結合親和性を示します。
(b): 左側は異なる部位に変異が生じている VHH 抗体の構造を示し、右側は VHH 抗体とその単一点変異体の融点温度を示しています。
結合親和性と熱安定性の両方において優れた性能を有する 3 つの変異体があります。これは P を確認します腐敗VHH 抗体変異の設計をガイドする際、特に抗体の性能を向上させる際の LGN の有効性。 P腐敗LGN の自己教師あり学習戦略は、タンパク質工学のための強力なツールを提供し、実験データなしで正確な変異予測を可能にします。
研究者はPを使用しました腐敗LGN は、ウェット実験によるバリアントのより優れた性能を持つ Ago タンパク質を見つけるために、12 個の既知の単一点変異に対して複合スコアを実行し、2 ~ 7 部位の上位 5 個の高次変異候補、合計 30 個の変異体をスクリーニングしました。 。
P腐敗LGNが設計したKmAgo変異体と実験結果
※左上:KmAgoタンパク質の構造
*右上: 異なる数の変異部位を持つ KmAgo 変異体の最適な活性。これは、変異部位の数が増加するにつれて活性がどのように変化するかを示している可能性があります
※中下:KmAgoおよびその複数変異部位変異体の切断活性
実験結果は次のことを示しています。
* 活動の増加:90% の変異体は、野生型 (WT) と比較して、強化された DNA 切断活性を示しました。
*最優秀ミュータント:最良の変異体は、WT よりも 8 倍活性が高い 7 部位変異体でした。※高次変異体の利点:高次の変異体は、最大活性の向上と平均の向上の両方の点で、低次の変異体よりも高い活性を示す傾向があります。
P腐敗LGN モデルは、単一の変異部位を組み合わせた場合に、高機能獲得変異体を首尾よく特定し、正のエピスタシス効果を特定することができました。これは P を確認します腐敗Ago タンパク質変異の設計をガイドする際、特に抗体の性能を向上させる際の LGN の有効性。
最新の研究では、科学者は P を使用しました。腐敗LGN モデルは、Deep Mutation Scan (DMS) データセットにおけるタンパク質の適合性を予測し、他の自己教師あり学習モデルと比較しました。
さまざまなモデルのタンパク質予測効果
a: ゼロショット深層学習モデルの推論効率と効果
b: 多重変異部位効果予測性能
c: 高次突然変異予測の性能向上
実験結果によると、P腐敗LGN は比較したすべてのモデルの中で最も優れたパフォーマンスを示しました。タンパク質のフィットネスを正確に予測するだけでなく、使用するトレーニング可能なパラメータの数も最小限に抑えます。パラメータが少ないほど、モデルのトレーニングと微調整のコストが安くなり、ラベルの少ないデータでモデルが効果的に学習できることも意味するため、これは重要です。
実験の最終段階では、研究者らは利用可能な実験ラベルの一部を使用してモデルの微調整を強化し、予測の精度をさらに向上させました。結果は P を示します腐敗LGN は、特に高次の変異体を扱う場合、パフォーマンスにおいて他の方法よりも大幅に優れています。
画期的な研究で、科学者たちは P を使用しました。腐敗LGN モデルは、タンパク質の細胞内局在 (PSL)、つまりタンパク質の機能と密接に関係する細胞内のタンパク質の特定の位置を予測するために使用されます。
タンパク質の細胞内局在のモデル予測
研究チームは最初に P を使用しました腐敗LGN モデルは、それぞれアミノ酸レベルの表現で構成される 9,366 個のタグ付きタンパク質を分析しました。続いて、2,738 個のテストタンパク質を評価して、細胞内のこれらのタンパク質の考えられる 10 個の位置を予測しました。実験結果によると、P腐敗LGN は、アミノ酸配列や相同性情報に基づく既存のベースライン手法を大幅に上回る予測精度を実現します。
AlphaFold を皮切りに、人工知能は生体医工学の認知限界を更新し続けていますが、ディープラーニングは依然として高品質のデータによって制限されています。腐敗LGN のゼロショット学習トレーニングがその答えを提供してくれるかもしれません。データがゼロの AGI 時代に入った後、次世代の構造生物学者は、もはや主に実験方法の専門家ではなく、生物学のメカニズムを証明または否定するための構造ベースの実験の解釈、設計、実行、または設計の責任を負うことになるでしょう。新しいタンパク質の機能と臨床治療。