HyperAI초신경

단백질 지향 진화를 안내할 실험 데이터 없이 상하이 교통 대학 연구 그룹은 미세 환경 인식 그래프 신경망 ProtLGN을 발표했습니다.

特色图像

단백질 공학은 현대 생명공학과 의학 연구에서 중요한 역할을 합니다. 단백질 공학은 단백질의 아미노산 서열을 변형함으로써 효소의 촉매 효율을 높이고, 약물의 친화도를 높이거나, 열 안정성을 개선하는 등 단백질에 새로운 생화학적 특성을 부여하거나 개선할 수 있습니다. 이러한 개선은 새로운 약물 개발, 질병 치료, 생물 제조의 효율성 증가에 필수적입니다.

단백질 공학을 위해서는 수만 개의 후보 돌연변이체 중에서 가장 우수한 돌연변이체를 선별해야 합니다. 유리한 돌연변이는 단백질의 하나 이상의 생화학적 특성을 개선하고, 단백질의 안정성, 친화성, 선택성 또는 촉매 효율성을 향상시키고, 특정 응용 분야에 더 적합하게 만들 수 있는 유전적 변이를 말합니다. 하지만,높은 적응력을 가진 돌연변이체를 실험적으로 검증하는 데는 많은 비용과 시간이 소요됩니다. 게다가 여러 가지 유익한 돌연변이가 결합되면 부정적인 후성유전학적 효과가 나타나는 경우가 많습니다.이러한 요소들은 다양한 정도로 효율적인 단백질 설계의 복잡성을 증가시켜 돌연변이로 인해 단백질의 기능이 감소하게 됩니다.

최근 들어, 딥러닝을 기반으로 한 예측 및 스크리닝 방법이 실제 응용 분야에서 검증 및 적용되고 있습니다. 대량의 데이터를 분석하고 단백질 서열, 구조, 기능 간의 관계를 학습함으로써 단백질 설계의 정확도와 효율성을 향상시킬 수 있습니다. 그러나 대부분의 방법은 단백질 서열에서 특징을 추출하기 위해 다중 서열 정렬(MSA)이나 단백질 언어 모델(PLM)을 기반으로 하는데, 이는 많은 한계를 가지고 있습니다.예를 들어, 이는 다중 시퀀스 정렬의 품질에 의존하며 상동성 정보에 의해 제한됩니다. 또는 많은 양의 데이터와 복잡한 모델이 필요하며, 학습 비용이 높습니다. 게다가 사전 훈련된 모델을 새로운 작업에 직접 적용하는 것은 모델의 일반화 및 표현 능력에 큰 어려움을 야기합니다.

이를 위해,상하이 교통대학교의 Hong Liang 연구 그룹은 새로운 것을 개발했습니다.썩음LGN의 미세환경 인식 그래프 신경망,이 기술은 단백질 3D 구조로부터 유익한 아미노산 돌연변이 부위를 학습하고 예측할 수 있으며, 다양한 기능을 가진 단일 부위 돌연변이와 다중 부위 돌연변이의 설계를 안내하고 40% 이상의 P를 달성할 수 있습니다.썩음LGN이 설계한 단일점 돌연변이 단백질은 야생형 단백질보다 성능이 뛰어납니다. 해당 결과는 JCM에 게재되었습니다.

서류 주소:
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036
공식 계정을 팔로우하고 "단백질 디자인"에 답글을 달면 전체 PDF를 받을 수 있습니다.

썩음LGN: 가벼운 그래프 신경망 잡음 제거 네트워크 구축

썩음LGN 프레임워크: 그래프 신경망 기반 단백질 학습 네트워크

썩음LGN은 그래프 신경망을 기반으로 한 단백질 표현 학습 모델입니다. 핵심 아키텍처는 다음과 같습니다.


썩음LGN 아키텍처

* kNN 그래프(k-최근접 이웃 그래프):

입력 단백질의 아미노산 잔류물은 그래프의 노드로 사용되고, 에지 베이스와 아미노산 잔류물 사이의 공간적 거리는 k-최근접 이웃 알고리즘을 통해 결정되어 단백질의 위상 구조를 구축하고, 이후 그래프 신경망 처리를 위한 기반을 제공합니다.

* 등가 GNN(Equivariant Graph Neural Network):

3차원 공간에서는 단백질의 구조가 회전되거나 반사될 수 있습니다. 핵심 네트워크 계층인 등가 GNN은 이러한 회전 불변성 구조를 인식하고 유지하도록 설계되었습니다. 즉, 단백질 그래프가 어떻게 회전하더라도 네트워크 출력은 동일한 단백질 구조에 대해 일관되어야 합니다.

* 노드 임베딩:

단백질의 그래프 표현에서 각 아미노산 잔류물은 그래프의 노드로 표시되어 머신 러닝 모델이 노드 간의 복잡한 관계를 포착하고 이해할 수 있습니다.

* 출력 레이어 및 점수(읽기 레이어 및 점수):

등가 GNN이 학습한 노드 표현은 유익한 돌연변이 부위를 식별하고 단백질 기능이나 구조에 대한 돌연변이의 잠재적 효과를 예측하는 데 사용됩니다. 동시에, 모델의 마지막 레이어로서 예측 결과는 정량적 점수로 변환됩니다.

* 검증:

효소결합면역측정법(ELISA)과 시차주사형광열안정성분석(DSF)과 같은 실험적 생물학적 방법을 사용하여 모델이 예측한 돌연변이를 실험적으로 검증하고 생물학적 기능을 테스트했습니다.

썩음LGN 훈련 프로세스: 훈련-예측-미세 조정

썩음LGN의 학습 과정은 아래 그림과 같으며, 학습, 예측, 모델 미세 조정으로 구성됩니다.


썩음LGN 사전 학습 및 예측 프로세스

* 자체 감독 사전 교육:

썩음LGN은 AA 유형 잡음 제거 작업을 위해 야생형 단백질에 대한 자체 감독 사전 학습을 먼저 거쳤습니다.

입력 그래프에 포함된 3차원 좌표 정보는 노드 속성의 일부이며, 단백질의 3차원 공간에서 아미노산 잔류물의 위치를 보다 정확하게 나타내는 데 사용됩니다.

3차원 좌표 정보와 아미노산의 물리적, 생화학적 특성(아미노산 유형, SASA, B-인자 등)은 함께 입력 그래프의 노드와 엣지의 속성을 구성합니다. 이러한 속성은 KNN 그래프를 구성하는 데 사용되며, 여기서 각 노드(아미노산 잔류물)는 다른 노드와의 공간적 거리에 따라 서로 연결됩니다.

썩음LGN의 자기지도 학습 과정

* 등가 그래프 합성 계층(EGC):

등가 그래프 신경망(EGC 층)은 사전 학습에서 입력 단백질 그래프를 처리하는 데 사용됩니다. 이 계층을 통해 모델은 회전 및 이동 변환에 따라 변경되지 않는 노드 임베딩을 학습하여 다양한 단백질의 구조를 처리하는 데 도움이 됩니다.

EGC 층은 그래프 신경망의 핵심으로, 그래프 구조 데이터를 처리하고 단백질의 공간 구조 변화에 대한 민감도를 유지할 수 있습니다. 이는 단백질의 3차원 구조를 이해하는 데 중요합니다.

자기 감독 학습 과정에서 EGC 계층은 노이즈가 있는 야생형 단백질 그래프를 입력으로 받고 아미노산 잔류물 간의 공간적 관계를 고려한 노드의 임베딩 표현을 출력합니다.

* 노이즈가 있는 입력 속성:


훈련 중에 야생형 단백질의 입력 속성에 노이즈를 주입하여 자연에서 일어나는 무작위 돌연변이를 시뮬레이션합니다.

* 제로샷 예측:

파란색 화살표는 단백질 돌연변이를 고려할 때, 모델이 사전 훈련 단계에서 학습한 지식을 사용하여 돌연변이가 단백질 기능에 미칠 수 있는 영향을 예측한다는 것을 나타냅니다.

* 습식 생화학적 평가:

돌연변이 예측과 습식 실험 평가를 결합하면 사전 훈련된 모델을 업데이트하여 특정 단백질과 기능에 더 잘 맞출 수 있습니다.

* 미세 조정:

다이어그램의 녹색 화살표 부분에 표시된 것처럼, 습식 실험의 평가와 결합하여 사전 학습된 모델을 특정 단백질과 기능에 따라 업데이트하고 최적화하여 예측의 정확도와 적응성을 개선할 수 있습니다.

연구진은 모델의 일반화와 표현력을 개선하기 위해 생물학적 사전 정보를 더욱 활용하기 위해 세 가지 추가 조치를 취했습니다. * 자연에서 발생하는 무작위 돌연변이를 시뮬레이션하기 위해 입력 아미노산 유형에 노이즈를 적용했습니다. * 아미노산 노드 예측을 위한 손실 함수의 점수 매기기 메커니즘에서 유사한 아미노산 간의 대체를 장려하기 위해 라벨 평활화가 도입되었습니다.

* 다중 작업 학습 전략을 활용하여 사전 훈련된 모델이 여러 예측 대상을 학습할 수 있도록 하여 "한 단어, 다중 용도" 그래프 표현 학습 모델을 훈련합니다.

단백질 지향 진화의 잠재력 탐구: P썩음LGN은 효과적인 전략을 제공합니다

P를 검증하기 위해썩음LGN이 단백질 돌연변이체의 활성을 예측하는 정확성을 검증하기 위해 본 연구에서는 다양한 단백질의 다양한 생물학적 기능에 대한 광범위한 검증 작업을 수행하여 P썩음VHH 항체, 다양한 형광 단백질(녹색, 청색, 주황색 형광 단백질 등) 및 엔도뉴클레아제(KmAgo)를 포함하는 LGN의 보편성은 열 안정성, 결합 친화도, 형광 밝기 및 단일 가닥 DNA 절단 활성과 같은 단백질 공학에서 일반적인 기능적 변형 목표를 포괄합니다.

실험 데이터는 실험 데이터가 없거나 유사한 단백질에 대한 실험 데이터가 없는 경우에도 P가썩음LGN은 여전히 40%의 단일점 돌연변이 성공 예측률을 달성할 수 있으며, 어떤 경우에는 여러 생물학적 기능을 동시에 향상시킬 수 있습니다.

썩음LGN 및 형광 단백질: 이동 능력의 예측 모델

연구자들은 P를 사용했습니다썩음LGN 모델은 녹색 형광 단백질(GFP)에 맞춰 미세 조정되어 형광 강도에 맞게 특별히 최적화된 점수 함수를 개발했습니다. 1,000개의 표지된 GFP 돌연변이체는 미세 조정 학습을 위해 DMS(Deep Mutation Scanning) 데이터베이스에서 무작위로 선택되었으며, 이를 통해 형광 강도 변화를 예측하는 모델의 정확도가 향상되었습니다.


형광단백질 실험 결과

* 단백질 구조는 왼쪽에 표시되어 있으며, 빨간색 구체는 돌연변이된 아미노산 잔류물을 강조합니다.

* 형광 강도 데이터는 오른쪽에 표시되어 있으며 WT와 다른 돌연변이를 비교합니다.

그림 a는 소수의 표시된 녹색 형광 단백질(GFP) 변형체로부터 학습한 기능별 적합도 점수 함수의 유용성을 평가합니다. 10명의 돌연변이 중에서,그중 5개는 야생형(WT)보다 더 높은 형광 강도를 보였고, 가장 좋은 성능을 보인 돌연변이는 WT의 두 배에 달하는 형광 강도를 보였습니다.

또한, 이 실험에서는 다른 단백질 계열에 속하고, 다른 활성 영역을 가지고 있으며, GFP의 약 21%와 서열 상동성을 갖는 주황색 형광 단백질(orangeFP)에 대해 동일한 득점 기능의 성능을 조사했습니다. 연구자들은 미세하게 조정된 P를 사용했습니다.썩음LGN은 orangeFP의 단일점 돌연변이체를 순위를 매기고 습식 분석 발현 및 테스트를 위해 상위 10개 변종을 선정했습니다. 이들 돌연변이체 중에서,그중 7개는 WT보다 더 높은 형광 강도를 보였으며, 이 결과는 모델의 강력한 이동 능력을 강조합니다.

썩음LGN 및 VHH 항체: 샘플 없음 P썩음LGN의 성능

실험자들은 P를 사용했습니다.썩음실험 데이터가 없는 LGN 모델은 약 30,000개의 표지되지 않은 단백질 구조에 대해 사전 학습되었으며, VHH 항체 변종 중에서 가장 높은 적합도 예측을 보인 상위 10개 돌연변이체가 습식 실험 평가를 위해 선택되었습니다.


썩음LGN이 설계한 VHH 항체의 결과

(a) VHH 항체의 구조는 왼쪽에 표시되어 있으며, VHH 항체와 단일점 돌연변이체의 결합 친화도는 오른쪽에 표시되어 있습니다.

(b): 왼쪽은 VHH 항체의 구조를 보여주며, 돌연변이는 다른 부위에서 발생하고, 오른쪽은 VHH 항체와 단일점 돌연변이체의 녹는점 온도를 보여줍니다.

세 가지 돌연변이체는 결합 친화성과 열 안정성 모두에서 우수한 성능을 보였습니다.이는 P를 확인합니다.썩음VHH 항체 돌연변이의 설계를 안내하는 데 있어서 LGN의 효과, 특히 항체 성능을 개선하는 데 있어서의 효과.썩음LGN의 자기 지도 학습 전략은 단백질 공학을 위한 강력한 도구를 제공하여 실험 데이터가 없더라도 정확한 돌연변이 예측이 가능합니다.

썩음LGN 및 Ago 단백질: 최적의 단일점 돌연변이 조합 찾기

연구자들은 P를 사용했습니다썩음LGN은 12개의 알려진 단일점 돌연변이에 대한 종합적인 점수를 매기고 2~7개 부위에서 상위 5개의 고차 돌연변이 후보를 선별하여 총 30개의 돌연변이를 선별한 후 습식 실험 평가를 통해 더 나은 성능을 보이는 Ago 단백질 변형체를 찾았습니다.


썩음LGN이 설계한 KmAgo 돌연변이체와 실험 결과

* 좌측 상단: KmAgo 단백질의 구조

* 오른쪽 상단: 돌연변이 부위의 수가 다른 KmAgo 돌연변이체의 최적 활동. 이는 더 많은 돌연변이 사이트가 추가됨에 따라 활동이 어떻게 변하는지를 나타낼 수 있습니다.

* 중간 및 하단: KmAgo 및 다중 돌연변이 부위 돌연변이체의 절단 활성

실험 결과는 다음과 같습니다.

* 활동 강화:야생형(WT)과 비교했을 때, 90% 돌연변이체는 향상된 DNA 절단 활성을 보였습니다.

* 최고의 뮤턴트:가장 좋은 돌연변이체는 WT보다 활성이 8배 높은 7개 부위 돌연변이체였습니다.* 고차 돌연변이의 장점:상위 돌연변이체는 하위 돌연변이체보다 최대 활성 개선과 평균 개선 측면에서 모두 더 높은 활성을 보이는 경향이 있습니다.

썩음LGN 모델은 단일 돌연변이 부위를 결합했을 때 높은 기능 이득 돌연변이와 긍정적인 상호작용 효과를 성공적으로 식별할 수 있었습니다. 이는 P를 확인합니다.썩음LGN이 Ago 단백질 돌연변이의 설계를 안내하는 효과, 특히 항체 성능을 개선하는 데 효과적입니다.

썩음LGN과 다른 자기 감독 모델 비교: 더 효율적이고 더 정확함

최근 연구에서 과학자들은 P를 사용했습니다.썩음LGN 모델은 DMS(심층 돌연변이 스캐닝) 데이터 세트에서 단백질 적합도를 예측하고 다른 자기 지도 학습 모델과 비교합니다.


다양한 모델의 단백질 예측 효과

a: 제로샷 딥러닝 모델의 추론 효율성 및 효과성

b: 다중 돌연변이 부위 효과의 예측 성능

c: 고차 돌연변이 예측 성능 향상

실험 결과는 P썩음LGN은 비교된 모든 모델 중에서 가장 좋은 성능을 보입니다.이는 단백질의 적합도를 정확하게 예측할 뿐만 아니라, 최소한의 훈련 가능한 매개변수를 사용합니다.이것이 중요한 이유는 매개변수가 적을수록 모델을 훈련하고 미세 조정하는 데 드는 비용이 저렴해지고, 또한 모델이 레이블이 덜 지정된 데이터로도 효과적으로 학습할 수 있기 때문입니다.

실험의 마지막 단계에서 연구자들은 사용 가능한 실험적 레이블 중 일부를 사용하여 모델의 미세 조정을 강화하고 예측의 정확도를 더욱 개선했습니다.결과는 P썩음LGN은 다른 방법보다 성능이 훨씬 뛰어나며, 특히 고차원 돌연변이를 처리할 때 그 성능이 뛰어납니다.

썩음단백질 세포 내 국소화에 대한 LGN 예측: 단백질 3차원 구조의 종합적 분석

획기적인 연구에서 과학자들은 P를 사용했습니다.썩음LGN 모델은 단백질의 세포 내 위치(PSL), 즉 세포 내에서 단백질의 특정 위치를 예측하는 데 사용되는데, 이는 단백질의 기능과 밀접한 관련이 있습니다.


단백질 세포 내 위치의 모델 예측

연구팀은 먼저 P를 사용했다썩음LGN 모델은 각각 아미노산 수준으로 표현된 9,366개의 표지된 단백질을 분석했습니다. 이후, 세포 내에서 이러한 단백질이 존재할 수 있는 10가지 위치를 예측하기 위해 2,738개의 테스트 단백질을 평가했습니다. 실험 결과는 P썩음LGN은 아미노산 서열이나 상동성 정보를 기반으로 한 기존 기준 방법을 예측 정확도 측면에서 크게 능가합니다.

결론: 생물의학의 "AI 혁명"에는 경계가 없습니다.

AlphaFold를 시작으로 인공지능은 생체공학의 인지적 경계를 지속적으로 새롭게 해왔지만, 딥러닝은 여전히 고품질 데이터에 제한을 받습니다. 이러한 제한에 대해 P썩음LGN의 제로샷 러닝 훈련이 답을 제공할 수 있습니다. 데이터가 전혀 없는 AGI 시대로 접어들면서 차세대 구조 생물학자들은 더 이상 실험 방법의 전문가가 아닐 가능성이 크며, 생물학의 메커니즘을 증명하거나 반증하기 위한 구조 기반 실험을 해석, 설계, 실행하거나 새로운 단백질 기능과 임상 치료법을 설계하는 일을 더 많이 맡게 될 것입니다.