ウェストレイク大学は、Transformer を使用して数百億のペプチドの自己集合特性を分析し、自己集合の法則を破りました。

特色图像

ポリペプチドは、2つ以上のアミノ酸がペプチド結合により構成された生理活性物質であり、折り畳みやらせん形成によりタンパク質の高次構造を形成することができます。ペプチドは、複数の生理学的活性に関与するだけでなく、自己集合してナノ粒子を形成し、生物学的検出、薬物送達、および組織工学に関与することもできます。
しかし、ポリペプチドの配列構成は非常に多様であり、100 億を超えるポリペプチドがわずか 10 個のアミノ酸で構成されることもあります。したがって、自己組織化ペプチドの設計を最適化するために、その自己組織化特性の包括的かつ体系的な研究を実施することは困難です。
この目的を達成するために、ウェストレイク大学の李文斌氏の研究グループは、Transformer に基づく回帰ネットワークを使用して数百億のポリペプチドの自己集合特性を予測し、さまざまな位置のアミノ酸が自己集合特性に及ぼす影響を分析し、情報を提供しました。自己組織化ペプチドの研究のための強力な新しいツール。

著者 | 雪才

編集者 | 三陽

ポリペプチドは、2つ以上のアミノ酸がペプチド結合により構成されている生理活性物質です。ペプチドは合成が便利で、生分解性、生体適合性があり、化学的多様性が豊富です。、蛍光、半導体の導電性、または磁性を備えたナノマテリアルを形成できます。このため、ペプチドは科学研究コミュニティから幅広い注目を集めています。

しかし、ペプチドの多様性があるからこそ、現在、その自己集合傾向 (AP、凝集傾向) を予測する方法は不足しています。、それを秩序構造に変換することは困難です。現在、自己集合してニーズを満たし、産業用途に応用できる超分子構造を形成できるペプチドはほんのわずかです。

図 1: hCA、抗生物質、トリプシンに対するさまざまな自己組織化プローブの特異的蛍光

過去数十年にわたり、自己組織化ペプチドは主に生物学的実験を通じて発見されてきました。。しかし、実験には長時間を要することが多く、また特定の傾向があるため、多数のペプチドを包括的かつ体系的に研究することはできません。

近年、コンピュータによるスクリーニングが自己組織化ペプチドの設計に広く使用されています。。 2015 年、Frederix らは粗視化分子動力学 (CGMD) を使用してトリペプチドの AP を分析しました。ただし、アミノ酸の数が増加すると、ペプチド配列の数が指数関数的に増加し、CGMD のコストが大幅に増加します。

そのため、一部の研究者は AI と CGMD を組み合わせて、従来の手法の分析コストを削減しています。ただし、AI-CGMDには大量の学習データが必要です。デカペプチド配列は 100 億以上あると推定されており、320 万のペプチド配列データが必要です。上記の理由に基づいて、現在、5 個を超えるアミノ酸で構成されるポリペプチド (ペンタペプチド) についての AP 予測はありません。

これらの問題を解決するには、ウェストレイク大学の Li Wenbin 氏の研究グループは、トランスフォーマーベースの回帰ネットワーク (TRN) と CGMD を組み合わせて、数百億のポリペプチドの自己集合特性を予測しました。、ペンタペプチドおよびデカペプチドのAPが得られ、ポリペプチドのAPに対する異なる位置のアミノ酸の影響が得られました。この成果は「Advanced Science」に掲載されました。

関連する結果は「Advanced Science」に掲載されました

論文リンク:

https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202301544

実験プロセス

トレーニング セット: ラテン語超立方体サンプリング

まず、ラテン超立方体サンプリングを使用して 8,000 のペプチド配列をスクリーニングしました。スクリーニングされたポリペプチド配列をCGMDモデルによって分析して、それらのAPを取得した。

モデルの構築: エンコーディングとデコーディング

研究者らは、TRN に基づいて AP 予測モデルを構築しました。モデルには、Transformer エンコーダーとマルチレイヤー パーセプトロン (MLP) デコーダーが含まれています。 Transformer エンコーダは、入力エンベディング層 (Input Embedding)、位置エンコーダ (Positional Encoding)、およびエンコード ブロック (Encoding Block) で構成されます。

入力埋め込み層は、ポリペプチドの構成要素 (アミノ酸) を 512 次元の連続空間にマッピングするために使用され、位置エンコーダーはアミノ酸の位置情報を出力します。エンコード ブロックには、セルフ アテンション ネットワークとフィードフォワード ニューラル ネットワークが含まれます。

Transformer エンコーダーは最終的に、隠れ層によって表されるポリペプチド配列を出力します。。このシーケンスは、MLP 次元削減を 5 回行った後、1 次元ベクトルに圧縮されます。 MLP デコーダの最後の層は、ポリペプチドの AP を出力します。

図 2: TRN モデルのワークフロー

a: α-ヘリックスとβ-シートの原子モデルとα-ヘリックスのCGモデル。

b: CGMDを介してトレーニングデータを出力するプロセス。

c: TRN モデルの概略図。

実験結果

モデル予測: 改善 54.5%

研究者らは、TRN モデルと他の非深層学習モデル (サポート ベクター マシン SVM、ランダム フォレスト RF、近接アルゴリズム NN、ベイジアン回帰 BR、線形回帰 LR) の AP 予測パフォーマンスを比較しました。

トレーニング データが 8,000 個しかない場合、モデルの決定係数 R2 は 0.85 を超えます。これは、SVM より 11.8%、RF より 54.5% 高くなります。

図 3: TRN モデルと他の非深層学習モデルのパフォーマンスの比較

トレーニング データが増加すると、TRN モデルのパフォーマンスが向上します。  トレーニング データが 54,000 に達すると、TRN モデルの平均絶対誤差 (MAE) は 0.05、R2 は 0.92 になります。

図 4: TRN モデルのパフォーマンスに対するトレーニング データの影響

上記の結果は、非深層学習モデルと比較して、TRN モデルは、少ないトレーニング データでより高い予測率を達成できます。。同時に、トレーニング データが増加するにつれて、TRN モデルのパフォーマンスが向上します。

親水性:APHC  修正

報道によると、AP通信に加えて、ペプチドの親水性 (log P) もペプチドの自己集合に影響します。

AP が低い値から高い値に増加すると、log P の中央値が減少します。これは、親水性の高いペプチドの凝集能力が低いことを示しています。しかし、log P が 0.25 ~ 0.75 のポリペプチドの AP は広範囲に及び、0 ~ 1 の間に分布しており、この 2 つの関係は密接ではなく、ポリペプチドの AP に影響を与える他の要因が存在することが示されています。

図 5: AP と log P の関係

a: 320万個のペンタペプチドのAPとlog Pの間の相関関係。

b: 異なる間隔での AP 分布。

c: 異なる AP 間隔でのログ P の分布。

ペプチドの自己集合に対するAPとlog Pの影響を調べるために、研究者らはlog Pを使用してAPを補正し、APを取得しました。HC 。修正されたAPHC  ペプチドの自己集合と沈殿を区別し、ハイドロゲルを形成する可能性のあるペプチドをスクリーニングすることができます。

図 6: APHC  logPとの関係

a: 320万個のペンタペプチドのAPHC  log P との相関。

b:APHC  さまざまな間隔での配布。

c: 異なる AP 上のログ PHC  間隔の分布。

自己組織化ルール: 異なる位置のアミノ酸の影響

ペンタペプチドの異なる位置にある 20 個のアミノ酸が AP に及ぼす影響を分析した後HC  ポリペプチドの自己集合特性に対するさまざまなアミノ酸とその分布の影響を調査した後、研究者らはそれらを要約して5つのグループに分けました。

最初のグループのアミノ酸には、フェニルアラニン (F)、チロシン (Y)、およびトリプトファン (W) が含まれます。このアミノ酸グループはπ-πスタッキングを持ち、疎水性が高く、ポリペプチドの自己集合に最も大きく寄与します。。このうちWは疎水性が最も強くAPに強いHC  最も大きな影響を及ぼしており、これは WWWWW の観察と一致しています。

図 7: 異なる AP 間隔の異なる位置での 20 個のアミノ酸の分布比率

F、Y、および W は、3 ~ 5 位、特に 3 位でのポリペプチドの自己集合に最も寄与します。それは、3 位のアミノ酸の自由度が高く、π-π 相互作用を通じてポリペプチドの自己集合を促進する可能性が高いためと考えられます。

図 8: π-π スタッキングの概略図

しかし、これらの芳香族アミノ酸は5位の強力なプロトン受容体であり、他のポリペプチドと相互作用してベンゼン環間の距離を広げ、分子内のπ-π相互作用を弱めます。

2番目のアミノ酸グループには、イソロイシン(I)、ロイシン(L)、バリン(V)、システイン(C)が含まれます。  。これらのアミノ酸の側鎖と水は互いに排除し合うため、疎水性が高く、ポリペプチドの自己集合に強く寄与します。。このグループのアミノ酸は、ポリペプチドの両端、特に自己組織化ポリペプチドの N 末端に分布していることがよくあります。

図 9: アミノ酸の疎水性相互作用

3 番目のアミノ酸グループには、ヒスチジン (H)、セリン (S)、およびスレオニン (T) が含まれます。このアミノ酸グループは極性側鎖を持っており、水素結合によるポリペプチドの自己集合能力を向上させることができます。。ただし、水素結合の効果はπ-πスタッキングに比べて弱いため、APが高いとHC  ポリペプチドの中で、3 番目のグループのアミノ酸には含まれるアミノ酸の量が少なくなります。

T と S はポリペプチドの両端、特に水素結合の形成を促進する N 末端を占める傾向があります。そして、H はポリペプチドの両端から遠く離れたところにあります。

図 10: ポリペプチド構造に対する極性側鎖の影響

4 番目のアミノ酸グループには、メチオニン (M) とプロリン (P) が含まれます。  。 M と P は異なる AP にありますHC  ペプチド内の分布は基本的に同じであり、ペプチドの特定の指標には弱い影響しか与えません。

5番目のアミノ酸グループはポリペプチドの自己集合を促進しません、負に帯電したアスパラギン酸(D)とグルタミン酸(E)、正に帯電したリジン(K)とアルギニン(R)、高極性アスパラギン(N)とグルタミン酸アミノアミド(Q)、側鎖のないアラニン(A)を含むおよびグリシン(G)。

ただし、C 末端の D と E、N 末端の R と K は二重荷電の頭部基を形成することができ、これにより反対の電荷を引き寄せて塩橋を形成することでポリペプチドの自己集合が促進されます。 N と Q は極性が高すぎるため、ペプチドの溶解を促進します。しかし、A と G には明らかな相互作用がないため、ポリペプチドの自己集合にはつながりません。

図 11: ポリペプチド構造に対するクーロン相互作用の影響

実験検証: CGMD および TEM の結果と基本的に一致

TRN モデルの予測を確認するために、研究者らは CGMD を使用して 5 つのペプチドの自己集合特性を検証しました。 CGMD の計算結果は、TRN モデルの予測結果と基本的に一致しています。

同時に、NRMMR、DMGID、NRMMRDMGID、NRMMR + DMGID の自己組織化特性も実験的に検証されました。透過型電子顕微鏡 (TEM) の結果は、CGMD の結果と基本的に一致しています。

図 12: CGMD (a) および TEM (b) によって観察されたペプチドの自己集合の結果

上記の結果は次のことを示しています。TRN モデルは、ペンタペプチド、デカペプチド、および混合ペンタペプチドの自己集合特性を正確に予測でき、自己集合ペプチドの研究に強力な新しいツールを提供します。

自己組織化ペプチド: 生物医学の新しい方向性

ポリペプチドの自己集合特性は十分に詳しく研究されていませんが、しかし、自己組織化ペプチドは、組織工学、ドラッグデリバリー、バイオセンシングにおいて広く使用されています。。さらに、細胞の収縮と弛緩、エンドサイトーシス小胞の移動、細菌やウイルスの膜貫通輸送はすべて、アルツハイマー病、パーキンソン病、II型糖尿病などの疾患とポリペプチドの自己集合から切り離せません。タンパク質のミスフォールディングに関係します。

図 13: 抗腫瘍薬送達のための自己組織化ペプチド

AI の発展により、科学研究者は大量のデータを処理できるようになりました。生物学の研究が従来の実験研究から計算研究、そしてAI研究へと移行する一方で、研究の規模も過去の数十、数百から数百億へと徐々に移行してきています。AIの助けを借りて、人間は生物学研究の限界を押し広げ、将来的にはより正確で包括的な生物学の研究を行うことができるようになり、AI +生物学が公衆に利益をもたらすことができると私は信じています。

参考リンク:

https://pubs.rsc.org/en/content/articlelanding/2014/CS/C4CS00161C