Westlake University는 Transformer를 사용하여 수십억 개의 펩타이드의 자가 조립 특성을 분석하고 자가 조립 규칙을 깨뜨렸습니다.

폴리펩타이드는 두 개 이상의 아미노산이 펩타이드 결합을 통해 구성된 생물학적으로 활성한 물질로, 접힘과 나선형 형성을 통해 더 높은 수준의 단백질 구조를 형성할 수 있습니다. 펩타이드는 다양한 생리적 활동과 연관될 뿐만 아니라 나노입자로 자체 조립되어 생물학적 감지, 약물 전달, 조직 공학에 참여할 수도 있습니다.
그러나 펩타이드의 서열 구성은 너무 다양합니다. 단 10개의 아미노산이 100억 개가 넘는 펩타이드를 형성할 수 있습니다. 따라서 자가조립 특성에 대한 포괄적이고 체계적인 연구를 수행하고 자가조립 펩타이드의 설계를 최적화하는 것은 어렵습니다.
이를 위해 웨스트레이크 대학의 리원빈 연구진은 변압기 기반 회귀 네트워크를 사용하여 수십억 개의 펩타이드의 자가 조립 특성을 예측하고, 자가 조립 특성에 미치는 다양한 위치의 아미노산의 영향을 분석하여 자가 조립 펩타이드 연구를 위한 강력한 새로운 도구를 제공했습니다.
저자 | 쉐차이
편집자 | 산양
펩타이드는 펩타이드 결합을 통해 두 개 이상의 아미노산으로 구성된 생물학적으로 활성한 물질입니다.펩타이드는 합성이 쉽고 생분해성이 있으며 생체적합성이 뛰어나고 화학적 다양성이 풍부합니다., 형광성, 반도체 전도성 또는 자성을 갖는 나노소재를 형성할 수 있습니다. 이러한 이유로 펩타이드는 과학 연구 커뮤니티에서 폭넓은 관심을 받게 되었습니다.
그러나 그것은 바로 펩타이드의 다양성 때문입니다.현재 자체 조립 경향(AP, Aggregation Propensity)을 예측하는 방법이 부족합니다., 이를 질서 있는 구조로 바꾸는 것은 어렵다. 현재, 산업적 응용이 가능한 요구 사항을 충족하는 초분자 구조를 형성하기 위해 자체 조립될 수 있는 펩타이드의 수는 매우 적습니다.

그림 1: hCA, 아비딘 및 트립신에 대한 다양한 자체 조립 프로브의 특정 형광
지난 수십 년 동안 자가조립 펩타이드는 주로 생물학적 실험을 통해 발견되었습니다.. 그러나 실험은 종종 장기간이 필요하고 특정 편향을 수반하기 때문에 많은 수의 펩타이드에 대한 포괄적이고 체계적인 연구에 도움이 되지 않습니다.
최근 몇 년 동안, 자가 조립 펩타이드의 설계에 계산적 스크리닝이 널리 사용되었습니다.. 2015년에 Frederix et al. CGMD(Coarse-grained Molecular Dynamics)를 사용하여 삼펩타이드의 AP를 분석했습니다. 그러나 아미노산의 수가 증가함에 따라 펩타이드 서열의 수도 기하급수적으로 늘어나 CGMD의 비용도 크게 증가합니다.
따라서 일부 연구자들은 AI와 CGMD를 결합하여 기존 방법의 분석 비용을 낮추었습니다. 하지만 AI-CGMD는 많은 양의 학습데이터가 필요합니다.. 100억 개 이상의 10펩타이드 서열이 있는 것으로 추정되며, 이에 따라 320만 개의 펩타이드 서열 데이터가 필요합니다. 위의 이유로 인해 현재 5개 이상의 아미노산으로 구성된 펩타이드(펜타펩타이드)에 대한 AP 예측은 없습니다.
이러한 문제를 해결하기 위해서는웨스트레이크 대학의 리원빈 연구 그룹은 CGMD와 결합한 변압기 기반 회귀 네트워크(TRN)를 사용하여 수십억 개의 펩타이드의 자가 조립 특성을 예측했습니다., 펜타펩타이드와 데카펩타이드의 AP를 얻었고, 펩타이드의 AP에 대한 다양한 위치의 아미노산의 영향을 얻었습니다. 이 결과는 "Advanced Science"에 게재되었습니다.

관련 결과는 "Advanced Science"에 게재되었습니다.
논문 링크:
https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202301544
실험 절차
훈련 세트: 라틴 하이퍼큐브 샘플링
먼저, 라틴 하이퍼큐브 샘플링을 사용하여 8,000개의 펩타이드 시퀀스를 스크리닝했습니다. 스크리닝된 펩타이드 서열의 AP는 CGMD 모델 분석을 통해 얻어졌습니다.
모델 구축: 인코딩 및 디코딩
연구진은 TRN을 기반으로 AP 예측 모델을 구축했습니다.이 모델은 변압기 인코더와 다층 퍼셉트론(MLP) 디코더로 구성됩니다.. Transformer 인코더는 입력 임베딩 계층, 위치 인코더, 인코딩 블록으로 구성됩니다.
입력 임베딩 계층은 펩타이드의 구성 단위(즉, 아미노산)를 512차원 연속 공간에 매핑하는 데 사용되고, 위치 인코더는 아미노산의 위치 정보를 출력합니다. 인코딩 블록에는 셀프 어텐션 네트워크와 피드 포워드 신경망이 포함됩니다.
Transformer 인코더는 최종적으로 숨겨진 레이어로 표현된 펩타이드 시퀀스를 출력합니다.. 이 시퀀스는 5번의 MLP 차원 축소 후 1차원 벡터로 압축됩니다. MLP 디코더의 마지막 계층은 펩타이드의 AP를 출력합니다.

그림 2: TRN 모델의 워크플로
a: α-나선과 β-시트의 원자 모델 및 α-나선의 CG 모델;
b: CGMD를 통해 훈련 데이터를 출력하는 과정;
c: TRN 모델의 개략도.
실험 결과
모델 예측: 54.5% 향상
연구자들은 TRN 모델의 AP 예측 성능을 다른 비딥러닝 모델(지원 벡터 머신 SVM, 랜덤 포레스트 RF, 근접 알고리즘 NN, 베이지안 회귀 BR, 선형 회귀 LR)과 비교했습니다.
단 8,000개의 학습 데이터만으로 모델의 결정 계수 R2는 0.85를 초과했는데, 이는 SVM보다 11.8%, RF보다 54.5% 더 높았습니다. .

그림 3: TRN 모델과 다른 비딥러닝 모델의 성능 비교
훈련 데이터의 양이 늘어날수록 TRN 모델의 성능도 향상됩니다. 학습 데이터 수가 54,000개에 도달했을 때 TRN 모델의 평균 절대 오차(MAE)는 0.05이고 R2는 0.92입니다.

그림 4: TRN 모델 성능에 대한 훈련 데이터의 영향
위의 결과는 비딥러닝 모델과 비교했을 때,TRN 모델은 더 적은 학습 데이터로 더 높은 예측률을 달성할 수 있습니다.. 동시에, 학습 데이터의 양이 증가함에 따라 TRN 모델의 성능도 향상됩니다.
친수성: APHC 개정
AP 외에도 다음과 같은 내용이 보도되었습니다.펩타이드의 친수성(log P)은 펩타이드의 자기조립에도 영향을 미친다..
AP가 낮은 값에서 높은 값으로 증가하면 log P의 중앙값이 감소하는데, 이는 친수성 펩타이드의 응집 능력이 낮음을 나타냅니다. 그러나 log P가 0.25~0.75인 펩타이드의 AP는 0과 1 사이에 분포하는 넓은 범위를 가지고 있어 두 값 사이의 관계가 가깝지 않으며 펩타이드의 AP에 영향을 미치는 다른 요인이 있음을 나타냅니다.

그림 5: AP와 log P의 관계
a: 320만 개의 5펩타이드의 AP와 log P 간의 상관관계
b: 다양한 간격의 AP 분포
c: 다양한 AP 간격에서의 log P 분포.
AP와 log P가 펩타이드 자가조립에 미치는 영향을 알아보기 위해 연구진은 log P를 사용하여 AP를 보정하고 AP를 얻었습니다.HC . 수정된 APHC 펩타이드의 자가조립과 침전을 구별하고, 하이드로젤을 형성할 수 있는 펩타이드를 걸러낼 수 있습니다.

그림 6: APHC log P와의 관계
a: 320만 개의 펜타펩타이드의 APHC log P와의 상관관계
b: APHC 다양한 간격으로 분포됨
c: 다른 AP에서의 log PHC 간격의 분포.
자기 조립 규칙: 다양한 위치의 아미노산의 영향
펜타펩타이드의 다른 위치에 있는 20개 아미노산이 AP에 미치는 영향HC 연구진은 다양한 아미노산과 그 분포가 폴리펩타이드의 자가조립 특성에 미치는 영향을 연구한 후, 다양한 아미노산과 그 분포가 폴리펩타이드의 자가조립 특성에 미치는 효과를 요약하고 이를 5개 그룹으로 나누었습니다.
첫 번째 아미노산 그룹에는 페닐알라닌(F), 티로신(Y), 트립토판(W)이 포함됩니다. 이 아미노산 그룹은 π-π 스태킹과 강한 소수성을 가지고 있어 펩타이드 자가 조립에 가장 큰 영향을 미칩니다.. 이들 중 W는 가장 강한 소수성을 가지고 있으며, AP에 대한 소수성도 가장 크다.HC 가장 큰 영향은 WWWWW의 관찰 결과와 일치합니다.

그림 7: 다른 AP 간격의 다른 위치에 있는 20개 아미노산의 분포 비율
F, Y, W가 위치 3-5, 특히 위치 3에 있을 때, 이들은 폴리펩타이드 자가 조립에 가장 강력하게 기여합니다. 이는 위치 3의 아미노산이 자유도가 더 높아서 π-π 상호작용을 통해 폴리펩타이드의 자가 조립을 더 쉽게 유도할 수 있기 때문일 수 있습니다.

그림 8: π-π 스태킹 다이어그램
그러나 이러한 방향족 아미노산은 5번째 위치에서 강력한 양성자 수용체이므로 다른 폴리펩타이드와 상호 작용하고, 벤젠 고리 사이의 거리를 늘리고, 분자 내의 π-π 상호 작용을 약화시킵니다.
두 번째 아미노산 그룹에는 이소류신(I), 류신(L), 발린(V) 및 시스테인(C)이 포함됩니다. .이들 아미노산의 측쇄는 서로 물을 배제하므로, 이들은 매우 소수성이고 펩타이드의 자가 조립에 크게 기여합니다.. 이 아미노산 그룹은 종종 폴리펩타이드의 양쪽 말단, 특히 자가조립 폴리펩타이드의 N 말단에 분포합니다.

그림 9: 아미노산의 소수성 상호작용
세 번째 아미노산 그룹에는 히스티딘(H), 세린(S), 트레오닌(T)이 포함됩니다. 이 아미노산 그룹은 수소 결합을 통해 펩타이드의 자가 조립 능력을 향상시킬 수 있는 분극된 측쇄를 가지고 있습니다.. 그러나 수소 결합은 π-π 스태킹보다 약하므로 높은 AP에서HC 폴리펩타이드에서는 세 번째 아미노산 그룹의 함량이 비교적 적습니다.
T와 S는 폴리펩타이드의 양쪽 끝, 특히 N 말단을 차지하는 경향이 있는데, 이는 수소 결합을 형성하기에 적합합니다. 그리고 H는 폴리펩타이드의 양쪽 끝에서 떨어져 있을 것입니다.

그림 10: 펩타이드 구조에 대한 극성 측쇄의 영향
네 번째 아미노산 그룹에는 메티오닌(M)과 프로린(P)이 포함됩니다. . 다른 AP의 M과 PHC 펩타이드의 분포는 기본적으로 동일하며, 펩타이드의 특정 지표에 미치는 영향은 미미합니다.
다섯 번째 아미노산 그룹은 펩타이드의 자가 조립에 도움이 되지 않습니다.음전하를 띤 아스파르트산(D)과 글루타민산(E), 양전하를 띤 리신(K)과 아르기닌(R), 고극성 아스파라긴(N)과 글루타민(Q), 그리고 측쇄가 없는 알라닌(A)과 글리신(G)을 포함합니다.
그러나 C 말단의 D와 E, N 말단의 R과 K는 이중 전하를 띤 헤드 그룹을 형성할 수 있으며, 이는 반대 전하를 통해 서로를 끌어당기고 염다리를 형성하여 폴리펩타이드의 자가 조립을 촉진합니다. N과 Q는 극성이 너무 강해서 펩타이드의 용해를 촉진합니다. 그러나 A와 G는 명확한 상호작용이 부족하여 폴리펩타이드의 자가조립에 도움이 되지 않습니다.

그림 11: 펩타이드 구조에 대한 쿨롱 상호 작용의 영향
실험 검증: 기본적으로 CGMD 및 TEM 결과와 일치
연구진은 TRN 모델의 예측을 확인하기 위해 CGMD를 사용하여 5개 펩타이드의 자가 조립 특성을 검증했습니다. CGMD의 계산 결과는 기본적으로 TRN 모델의 예측 결과와 일치합니다.
동시에, NRMMR, DMGID, NRMMRDMGID 및 NRMMR + DMGID의 자기 조립 특성도 실험적으로 검증되었습니다.투과 전자 현미경(TEM)의 결과는 기본적으로 CGMD의 결과와 일치합니다.

그림 12: CGMD(a) 및 TEM(b)으로 관찰한 펩타이드 자가 조립 결과
위의 결과는 다음을 보여줍니다.TRN 모델은 5개 펩타이드, 10개 펩타이드 및 혼합 5개 펩타이드의 자가 조립 특성을 정확하게 예측할 수 있어 자가 조립 펩타이드 연구를 위한 강력한 새로운 도구를 제공합니다.
자가 조립 펩타이드: 생물의학의 새로운 방향
펩타이드의 자기조립 특성은 아직 심도 있게 연구되지 않았지만,그러나 자가조립 펩타이드는 조직공학, 약물 전달 및 바이오센싱 분야에서 널리 사용되어 왔습니다.. 또한 세포의 수축과 이완, 세포 내 소포의 이동, 박테리아와 바이러스의 막관통 전파는 모두 폴리펩타이드의 자가조립과 분리될 수 없습니다. 알츠하이머병, 파킨슨병, 2형 당뇨병과 같은 질병도 단백질 오접힘과 관련이 있습니다.

그림 13: 항종양 약물 전달을 위한 자가 조립 펩타이드
AI가 발전함에 따라 연구자들이 방대한 양의 데이터를 처리하는 능력이 계속해서 향상되고 있습니다. 생물학 연구는 전통적인 실험 연구에서 계산 연구로, 그리고 AI 연구로 발전하면서 연구 규모도 수십 또는 수백 가지 가능성에서 수십억 가지 가능성으로 점차 커졌습니다.AI의 도움으로 인간은 생물학 연구의 경계를 넓히고 있습니다. 저는 미래에는 사람들이 생물학에 관해 더욱 자세하고 포괄적인 연구를 수행할 수 있을 것이며, AI와 생물학이 일반 대중에게 혜택을 줄 것이라고 믿습니다.
참조 링크:
https://pubs.rsc.org/en/content/articlelanding/2014/CS/C4CS00161C