권위 있는 저널 Cell Discovery에서 새로운 결과가 나왔습니다! 상하이 교통대학교의 Hong Liang이 이끄는 팀은 기능성 단백질의 초저가 및 완전 자동 설계를 위한 CPDiffusion 모델을 제안했습니다.

단백질은 생명 활동의 주요 실행자이며, 단백질의 구조와 기능 간의 관계는 항상 생명 과학 분야의 핵심 연구 주제였습니다. 최근 들어 강력한 데이터 처리 능력을 갖춘 딥 러닝이 등장하면서 이 모델은 단백질 서열, 구조 및 기능 간의 매핑 관계를 학습하고 안정성이 더 높고 결합 친화력이 강하며 효소 활성이 더 높은 새로운 단백질을 설계할 수 있게 되었습니다. 이를 통해 단백질 설계의 효율성을 크게 개선하고 연구 개발 비용을 효과적으로 절감할 수 있습니다.
그러나 기존의 방법은 일반적으로 대규모 데이터 세트에서 매우 큰 매개변수를 갖는 모델을 학습해야 하므로, 드물게 유사한 서열을 갖는 특정 단백질에 일반화하기 어렵고, 종종 비교적 간단한 구조와 기능을 갖는 단백질만 생성할 수 있습니다. 또한, 실험적 검증 결과, 설계된 단백질은 일반적으로 활성이 낮고 야생형 단백질을 능가하는 단백질은 드뭅니다.
이와 관련하여, 상하이 교통대학 자연과학대학/물리천문학대학/장강고등연구소/약학대학 홍량 연구팀의 조수 연구원인 주빙신(Zhou Bingxin) 등은 확산 확률 모델 프레임워크인 CPDiffusion을 설계했습니다.이 프레임워크는 단백질 골격 구조와 활성 부위와 같은 여러 생성 조건을 결합하고, 매우 낮은 학습 비용과 데이터 비용으로 단백질 서열, 구조 및 기능 간의 암묵적 매핑 관계를 학습한 다음 다양한 단백질 서열을 생성할 수 있습니다. 이렇게 생성된 시퀀스는 습식 실험 검증에서 매우 높은 성공률로 테스트를 통과할 수 있습니다.
CPDiffusion의 학습 및 추론 과정에는 전문가의 지도가 거의 필요하지 않다는 점은 주목할 만합니다.이 기술은 고도로 보존된 영역을 자동으로 식별한 다음 보존된 영역의 기능에 따라 보존되지 않은 영역에 더 많은 변화를 도입하여 생성된 시퀀스의 다양성을 증가시킵니다. "조건부 단백질 확산 모델은 활성이 향상된 인공 프로그래밍 가능 엔도뉴클레아제 시퀀스를 생성한다"라는 제목의 이 연구는 Nature's Cell Discovery에 게재되었습니다.
연구 하이라이트:
* 본 연구에서는 현재 발견된 중온 야생형 단백질의 활성보다 10배 이상 DNA 절단 활성이 현저히 높은 엔도뉴클레아제 KmAgo 및 PfAgo를 성공적으로 설계 및 생성했습니다.
* 이 연구는 수백 개의 아미노산을 동시에 변경할 수 있어 단백질 공학 연구에 더 많은 가능성을 제공합니다.
* 새로운 단백질 서열의 다양한 세대는 단백질 계열의 데이터베이스를 확장하여 과학자들에게 보다 풍부한 연구 자원을 제공할 수도 있습니다.

논문 링크:
https://www.nature.com/articles/s41421-024-00728-2
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 샘플 다양성을 보장하고 데이터 편향을 방지합니다.
단백질 서열-구조-기능 간의 매핑 관계를 배우기 위해서는CPDiffusion 모델은 CATH 4.2의 야생형 단백질 20,000개를 사용하여 훈련되었습니다. 또한 연구진은 모델이 생성될 단백질의 특징을 더 잘 이해하도록 돕기 위해 훈련 세트에 694개의 pAgos 단백질을 추가했습니다.
이러한 단백질은 짧은 pAgo 단백질, 긴 A 단백질, 긴 B pAgo 단백질을 포함하여 이전 연구에서 수집된 pAgo 단백질 패밀리에서 유래되었으며, 선택된 샘플의 다양성을 보장하여 발생할 수 있는 데이터 편향 문제를 줄였습니다. 게다가 데이터 세트에 있는 대부분의 WT 단백질은 중온성 pAgo이고, 소수의 긴 A pAgo 단백질만이 호열성입니다.
모델 아키텍처: 6단계 자동화 pAgo 단백질 설계
연구진은 CPDiffusion이 기능성 단백질 생성에 미치는 영향을 확인하기 위해 pAgo 단백질에 초점을 맞추기로 했습니다. pAgo 단백질은 원핵생물의 DNA 간섭 과정에서 중요한 역할을 하는 엔도뉴클레아제입니다. 이 기술은 특정한 단일 가닥 DNA 또는 RNA 서열을 구체적으로 인식하고 절단할 수 있으며 진단 분야에서 폭넓은 응용 가치를 가지고 있습니다. 더욱이 pAgo 단백질은 기질에 대한 친화성이 높고 표적 서열을 특이적으로 인식할 수 있어 이미징 및 유전자 편집에 중요한 도구가 됩니다.
연구자들은 CPDiffusion 프레임워크를 사용하여 새로운 pAgo 단백질을 설계했습니다.아래 그림 a에서 보는 바와 같이,먼저, 입력 단백질(Original pAgo)의 시퀀스와 정보가 아미노산 수준에서 단백질의 분자 생화학적 및 위상적 특성을 표시하는 그래프 표현으로 변환됩니다.그림 b에 나타낸 바와 같이,단백질은 전방 확산 단계에 진입합니다. 이 단계에서 원래 단백질의 각 아미노산 유형은 특정 치환 확률 행렬을 따르고 일련의 단계(T 단계)를 거쳐 파괴되어 전체 서열이 균일하게 분포됩니다.

위의 그림 c에 표시된 것처럼,역확산 단계에서 연구진은 균일하게 분포된 20가지 아미노산 유형에서 무작위로 아미노산을 샘플링한 다음 점차적으로 단백질 서열의 잡음을 제거했습니다.위의 그림 d에서 보여지는 바와 같이,잡음 제거 과정에서 연구자들은 특정 조건(예: 표적 단백질의 야생형 백본 구조, 2차 구조, 야생형 단백질을 기반으로 하는 아미노산 치환 매트릭스)을 사용하여 프로세스를 안내합니다. 모델이 단백질의 3차원 구조에 내재된 등가성을 학습할 수 있도록 하기 위해 연구진은 등가 그래프 합성 계층을 사용하여 전파 함수를 맞추었습니다. 그런 다음 모델은 단백질 골격의 각 아미노산 위치에 대한 결합 확률 분포를 생성합니다. 학습된 분포를 샘플링함으로써 연구자들은 해당 단백질 서열(생성된 pAgo)을 얻을 수 있습니다.위의 그림 e에서 보듯이.
다음으로, 연구진은 AlphaFold2를 사용하여 생성된 시퀀스에 대한 구조 예측을 수행하고 RMSD 및 pLDDT와 같은 지표를 평가하여 적합한 시퀀스를 선별했습니다. 마침내,아래 그림 f와 같이,이러한 적합한 시퀀스는 실험실에서 습식 실험(합성, 특성화 및 평가)을 거쳐 발현 수준, 효소 활성 및 열 안정성과 같은 실제 특성을 추가로 확인합니다.

실험 결론: 새로운 단백질은 더 강력한 활성과 열 안정성을 가지고 있습니다.
연구진은 중온성 pAgo 단백질(예: KmAgo)과 호열성 pAgo 단백질(예: PfAgo)을 후보 단백질로 사용하여 두 그룹의 새로운 단백질 서열을 추가로 생성했습니다. 아래 그림에서 보듯이, 연구진은 생성 및 스크리닝 프레임워크인 CPDiffusion을 사용하여 27개의 새로운 인공 KmAgos(Km-APs)와 15개의 새로운 인공 PfAgos(Pf-APs)를 성공적으로 생성했습니다. 새로 생성된 이 단백질은 원래 야생형(WT) 템플릿과 비교했을 때 50%-70%의 서열 동일성을 가지고, 다른 비템플릿 WT 단백질(즉, NCBI 데이터베이스에 있는 다른 WT 단백질)과 비교했을 때 40% 미만의 서열 동일성을 가지고 있습니다.
* KmAgo는 야생형에서 DNA 절단 활성이 상대적으로 낮은 중온성 효소로 실제 적용에 있어서 그 잠재력이 제한됩니다.
* PfAgo는 초고온발생효소입니다. 야생형은 DNA 절단 활성이 더 높지만 일반적으로 고온에서만 작동합니다. 기온이 낮아지면 활동도 줄어듭니다.

언급할 가치가 있는 것은 다음과 같습니다.CPDiffusion의 학습 및 추론 과정에는 전문가의 지도가 거의 필요하지 않습니다.이 기술은 고도로 보존된 영역을 자동으로 식별하여 보존된 영역의 기능에 따라 보존되지 않은 영역에 더 많은 변화를 도입함으로써 생성된 시퀀스의 다양성을 증가시킵니다.
연구진은 아래 그림과 같이 다양한 실험적 검증을 통해 KmAgo를 위해 생성된 새로운 시퀀스에서모든 시퀀스가 표현되었습니다. 약 901개의 TP3T 신규 서열이 DNA 절단 활성을 가지고 있었고, 701개 이상의 TP3T 서열이 야생형보다 더 높은 활성을 보였습니다. 그 중 가장 좋은 성과를 보인 소설 KmAgo는 야생형 KmAgo보다 활동성이 약 9배 높았습니다. 또한, 야생형 KmAgo와 비교했을 때 일부 Km-AP의 열 안정성도 향상되었습니다.

e: 37°C에서 27 Km-AP의 DNA 절단 활성
g: 27 Km-APs에서 다양한 역할을 하는 단백질의 수
f: 42°C에서 2분과 5분 동안 배양한 후 WT KmAgo와 27 Km-AP의 DNA 절단 활동.
아래 그림과 같이,PfAgo를 위해 생성된 15개의 새로운 시퀀스는 모두 발현되었으며 단일 가닥 DNA 절단 활성을 나타냈습니다. 그 중 가장 성능이 좋은 신규 PfAgo는 야생형 PfAgo의 녹는점을 약 100°C에서 약 50°C로 낮췄을 뿐만 아니라, 45°C에서의 단일 가닥 DNA 절단 활성이 95°C에서의 야생형 PfAgo의 두 배, 중간 온도에서는 야생형 KmAgo의 11배에 달했습니다.

c: 45°C에서 15개의 Pf-AP의 DNA 절단 활성
d: WT PfAgo 및 Pf-AP의 녹는점
e: 15개의 Pf-AP 중에서 서로 다른 역할을 하는 시퀀스의 수
요약하자면, CPDiffusion은 야생형 기능성 단백질로부터 자동으로 학습하고 더욱 강력한 복잡한 단백질 서열을 설계할 수 있는 강력한 신규 단백질 서열 설계 도구로 사용될 수 있으며, 기존 단백질 데이터베이스를 풍부하게 하고 단백질 엔지니어링 설계에 더 많은 가능성을 가져다줍니다.
AI는 단백질 공학의 미래를 재편한다
AI를 이용해 단백질의 신비를 밝히는 것은 생명과학 연구의 디지털화에 매우 중요합니다. 생명의 본질을 탐구하는 이러한 경쟁에서 중국 연구팀은 지속적인 진전을 이루고 기여하고 있습니다. 이 분야의 뛰어난 대표자 중 한 명으로서,본 연구의 책임저자인 홍량 교수와 그의 연구팀은 오랫동안 AI 단백질 지향 변형과 약물 설계 지원에 주력해 왔습니다.구체적인 연구 내용에는 단백질 구조 예측 및 최적화, 단백질 지향 변형 및 설계, 보조 약물 설계 및 최적화 등이 포함되지만 이에 국한되지는 않습니다. 연구팀은 유익한 성과를 거두었습니다. 지금까지 총 77편의 논문이 발표되었으며, 그 중 다수가 Nature 저널의 1위를 차지했습니다.
홍량 교수 연구팀 홈페이지:
https://ins.sjtu.edu.cn/people/lhong/index.html
2021년부터 Hong Liang 교수 팀은 단백질 분야에 AI를 적용하려고 노력해 왔습니다.단백질 공학 분야에서 독점적인 모델을 구축하여 처음부터 끝까지 기능을 위한 시퀀스를 설계합니다.그들은 상하이 인공지능 연구소의 연구원인 탄 판과 협력하여 단백질 사전 훈련 모델을 기반으로 한 미세 조정 훈련 방법인 FSFP를 제안했습니다. 이 방법은 단 20개의 무작위 습식 실험 데이터만을 사용하여 단백질 사전 훈련 모델을 효율적으로 훈련시켜 모델의 단일점 돌연변이 예측 양성률을 크게 향상시킬 수 있습니다. 이 방법은 단백질 적응성에 대한 소규모 표본 학습에 사용될 수 있으며, 실제 응용 분야에서 큰 잠재력을 보여주었습니다.
홍량 교수의 팀은 또한 ProtLGN이라는 미세환경 인식 그래프 신경망을 개발했습니다.단백질의 3차원 구조로부터 유익한 아미노산 돌연변이 부위를 학습하고 예측할 수 있으며, 다양한 기능을 가진 단일 부위 돌연변이 및 다중 부위 돌연변이의 설계를 안내할 수 있습니다. 실험 결과, 40% ProtLGN이 설계한 단일점 돌연변이 단백질이 야생형 단백질보다 성능이 더 뛰어난 것으로 나타났습니다.
자세한 내용: 지시된 단백질 진화를 안내할 실험 데이터 없이 상하이 교통 대학의 Hong Liang 연구 그룹은 미세 환경 인식 그래프 신경망 ProtLGN을 발표했습니다.
또한, 그들은 간단하고 효율적이며 확장 가능한 어댑터 SES-Adapter를 도입했습니다.단백질 언어 모델 임베딩을 구조 시퀀스 임베딩과 결합하여 구조를 인식하는 표현을 만들면 단백질 언어 모델의 성능을 크게 향상시킬 수 있습니다.
위 연구는 단백질 설계에 있어서 딥러닝의 강력한 잠재력을 보여줍니다. 단백질 분야에 딥 러닝 기술을 더욱 응용하면 단백질 공학 연구가 더욱 폭넓은 개발 분야로 나아갈 것이라는 점에는 의심의 여지가 없습니다.
참고문헌:
https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQ
https://ins.sjtu.edu.cn/article