Command Palette
Search for a command to run...
MIT와 하버드 대학교는 고도로 선택적인 기질 설계를 달성하기 위해 생성형 AI를 활용하여 새로운 단백질 분해 효소 절단 패턴을 발견하기 위한 공동 연구를 진행하고 있습니다.

생명체의 복잡한 생화학 반응 네트워크에서 프로테아제는 펩타이드 결합을 특이적으로 절단하여 혈액 응고, 조직 복구, 면역 반응, 심지어 암 진행에 이르기까지 일련의 핵심 생명 과정을 정밀하게 조절합니다. 이러한 프로테아제의 기능 장애는 종종 다양한 심각한 질병의 발생 및 진행으로 직접 이어집니다. 따라서 프로테아제의 작용 메커니즘을 규명하고 그 활성을 정밀하게 조절하는 것은 기초 생명 과학의 핵심 과제일 뿐만 아니라 새로운 진단 및 치료법 개발을 위한 중요한 돌파구입니다.
이 목표를 달성하는 열쇠는,핵심은 매우 "잘 맞는" 펩타이드 기질을 찾는 데 있습니다.이러한 물질들은 효소 활동을 추적하는 분자 탐침으로 사용되거나, 비정상적인 활동을 차단하는 억제제로 설계되거나, 심지어 표적 치료를 달성하기 위한 약물 전달 시스템에서 "조건부 활성화 스위치" 역할을 할 수도 있습니다.
하지만 표적 프로테아제에 의해 빠르게 절단되면서도 높은 선택성(다른 프로테아제와의 교차 반응을 피하고 해당 효소에 의해서만 인식됨)을 갖는 펩타이드 기질을 설계하는 것은 과학계에 항상 큰 과제였습니다. 이 문제는 프로테아제와 기질 사이의 복잡한 생화학적 상호작용에서 비롯됩니다. 다양한 생리적 기능에 적응하기 위해 프로테아제는 광범위한 절단 특이성을 진화시켜 왔으며, 활성 부위는 펩타이드 기질(일반적으로 약 10개의 아미노산 길이)에 정확하게 결합해야 합니다. 20개의 일반적인 천연 아미노산을 사용하여 10개의 아미노산으로 구성된 합성 펩타이드만 고려하더라도 이론적인 서열 조합은 약 20¹⁰(거의 10¹³)에 달하여 탐색할 수 있는 공간이 거의 무한합니다. 게다가 문제는…유사한 기능을 가진 프로테아제는 종종 공통 조상에서 유래하며 유사한 활성 부위 구조를 가지고 있어 "상호 인식"에 매우 취약합니다.이 때문에 수많은 가능성 중에서 매우 특정한 기질을 선별하는 것이 특히 어렵습니다.
이러한 병목 현상을 극복하기 위해 연구자들은 수많은 시도를 해왔습니다. 전통적인 방법은 종종 천연 단백질의 알려진 절단 부위나 효소 정보를 이용하기 때문에 효율성이 낮고 이상적인 인공 기질을 얻기 어렵습니다. 화학생물학적 지식을 기반으로 한 합리적인 설계는 일반적으로 복잡하고 처리량이 제한적이며, 주로 단일 프로테아제에 초점을 맞추기 때문에 규모 확장이 어렵습니다. 최근 고처리량 스크리닝 기술이 효율성을 어느 정도 향상시켰지만, 여전히 복잡한 조작과 높은 비용 등의 한계를 가지고 있습니다.기존의 대부분의 전산 예측 방법은 "절단 여부"만 판단할 수 있을 뿐 절단 효율을 정확하게 분류할 수 없어 심층적인 메커니즘 연구 및 엔지니어링 응용 분야의 요구를 충족하지 못합니다.
이러한 맥락에서,MIT와 하버드 대학교는 인공지능 기반의 엔드투엔드 설계 흐름인 CleaveNet을 공동으로 제안했습니다.이 접근 방식은 예측 모델과 생성 모델의 시너지 효과를 통해 기존의 프로테아제 기질 설계 패러다임을 혁신하고 관련 기초 연구 및 생의학 개발에 완전히 새로운 해결책을 제공하는 것을 목표로 합니다.

서류 주소:
https://www.nature.com/articles/s41467-025-67226-1
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "CleaveNet"이라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.
더 많은 AI 프런티어 논문:
다양한 실험 시나리오의 데이터셋을 활용한 교차 시나리오 검증을 통해 CleaveNet 모델의 일반화 능력을 강화했습니다.
본 연구는 CleaveNet 모델을 개발하고 검증하는 과정에서 모델의 신뢰성과 일반화 능력을 확보하기 위해 서열 구성 및 실험 방법이 크게 다른 두 개의 데이터셋을 통합했습니다.
연구자들이 사용한 핵심 데이터 세트는 mRNA 디스플레이 기술을 사용하여 약 18,500개의 합성 데카펩타이드를 포함하는 기질 라이브러리의 18가지 매트릭스 메탈로프로테이나제(MMP)에 대한 절단 활성을 체계적으로 특성화한 기존 연구에서 가져온 것입니다.각 기질-프로테아제 조합은 상대적인 절단 강도를 정량화하기 위한 표준화된 절단 효율 점수(Zₛₘ)에 해당합니다.
평가의 정확성을 더욱 확보하고 서열 유사성으로 인한 과대평가를 방지하기 위해,연구진은 초기 테스트 세트에 대해 상동성 필터링을 수행했습니다.연구진은 각 테스트 시퀀스와 훈련 세트의 모든 시퀀스 간의 최소 레벤스타인 거리를 계산하고, 거리가 3 미만이면서 훈련 세트와 매우 유사한 816개의 시퀀스를 제거했습니다. 최종적으로 2,901개의 겹치지 않는 시퀀스로 구성된 "mRNA 디스플레이 테스트 세트"를 얻었습니다. 이 부분 집합은 모델 훈련의 어떤 단계에서도 사용되지 않았으며, 오로지 내부 성능 검증에만 사용되었습니다.
생화학적 배경이 극명하게 다른 상황에 직면했을 때 모델의 적응성을 독립적으로 검증하기 위해,이 연구에서는 또한 "형광 테스트 세트"라고 불리는 완전히 독립적인 비표준 데이터 세트를 도입했습니다.이 데이터 세트는 길이가 다양한(7~14개 아미노산) 71개의 합성 펩타이드를 포함하며, 형광 공명 에너지 전달(FRET) 기반의 고전적인 시험관 내 실험을 통해 7가지 재조합 MMP 단백질에 대한 절단 활성이 검증되었습니다. 이 데이터 세트는 펩타이드 길이 분포, 아미노산 구성, 그리고 가장 중요한 실험적 검출 원리 측면에서 mRNA 디스플레이 기술을 사용하여 생성된 핵심 데이터 세트와 근본적으로 다릅니다. 이러한 의도적인 설계는 CleaveNet 모델이 특정 실험 조건을 초월하여 보편적인 생화학적 패턴을 포착하는 능력을 평가하는 데 중요한 기준점을 제공합니다.
CleaveNet은 협업 폐쇄 루프를 예측하고 생성합니다.
아래 그림에서 보는 바와 같이, CleaveNet의 핵심은 예측 모듈(CleaveNet Predictor)과 생성 모듈(CleaveNet Generator)이라는 두 개의 상호 보완적이고 협력적인 연산 모듈로 구성됩니다.이 둘은 함께 완전한 "설계-평가" 폐쇄 루프를 형성합니다.

예측 모듈은 방대한 서열 공간에서 후보 기질의 절단 활성을 신속하고 정확하게 평가하는 문제를 해결하는 것을 목표로 합니다.연구진은 이를 다중 출력 순차 함수 회귀 모델로 구축했습니다. 구체적으로, 이 모델은 아미노산 서열을 입력으로 받아 18개 MMP 모두에 대한 서열의 예측 절단 점수(Ŵₛₘ)를 동시에 출력하고 각 예측의 불확실성(σₛₘ)을 동시에 추정하는 것을 핵심 과제로 합니다.
예측의 견고성을 높이기 위해 본 연구에서는 모델 앙상블 전략을 활용했습니다.5개의 동일한 예측 모델을 mRNA 디스플레이 학습 데이터셋을 사용하여 독립적으로 학습시켰으며, 최종 예측 점수는 각 모델의 출력값 평균으로 산출했습니다. 예측의 불확실성은 이 5개 결과의 표준편차로 정량화했습니다. 또한, 조정 가능한 임계값(Zₜ)을 설정함으로써, 모델은 연속적인 예측 점수를 "절단" 또는 "미절단"의 이진 판단으로 쉽게 변환할 수 있어 다양한 스크리닝 시나리오에 적용할 수 있습니다.
본 연구에서는 예측 모델 구축 과정에서 서열 모델링의 두 가지 주요 아키텍처인 양방향 장단기 메모리 네트워크(BiDMN)와 트랜스포머를 체계적으로 비교했습니다. BiDMN은 서열 의존성을 포착하는 데 탁월하며, 트랜스포머는 어텐션 메커니즘을 통해 아미노산 간의 상호작용을 전역적으로 모델링할 수 있어 현재 단백질 언어 표현에 널리 사용되고 있습니다. 대규모의 다양한 데이터를 통해 입증된 잠재력을 바탕으로,연구진은 최종적으로 클리브넷 예측기의 기반으로 트랜스포머 아키텍처를 선택했습니다.
생성 모듈의 목표는 후보 기판의 자동화되고 지능적인 설계를 달성하는 것입니다.본 연구에서는 자기회귀 트랜스포머 기반의 생성 모델을 훈련시켜 mRNA 표현으로부터 데이터 세트에 내재된 보편적인 MMP 절단 선호도를 학습할 수 있도록 했습니다.이 모델은 추가적인 입력 조건 없이도 다수의 새롭고 타당한 펩타이드 서열을 생성할 수 있습니다.
연구자들은 단순히 무작위성을 재현하는 것이 아니라 생성 모델의 가치를 과학적으로 평가하기 위해 "사이트 독립 제어"라고 불리는 견고한 기준선 방법을 개발했습니다.이 방법은 훈련 데이터에서 각 아미노산 위치의 독립적인 분포만을 계산한 다음, 이를 기반으로 무작위 샘플링을 수행하여 서열을 생성합니다.CleaveNet으로 생성된 시퀀스를 여러 차원에 걸쳐 기준 시퀀스와 비교함으로써, 단순한 통계적 연관성을 넘어 모델이 학습한 복잡한 생화학적 패턴을 명확하게 확인할 수 있습니다.
예측 모듈과 생성 모듈 간의 긴밀한 협력을 통해 연구원들은 먼저 다양한 후보 라이브러리를 생성한 다음, 효율적이고 정확한 가상 스크리닝을 수행하여 후속 실험 검증을 위한 강력한 컴퓨팅 엔진을 제공할 수 있습니다.
CleaveNet은 선택적이고 정밀한 제어를 가능하게 합니다.
모델 구축을 완료한 후, 본 연구는 CleaveNet의 성능에 대한 다단계적이고 체계적인 실험적 검증을 수행했으며, 그 결과는 예측 정확도, 생성 합리성 및 실제 적용 효과 측면에서 이 프로세스의 탁월한 가치를 충분히 입증했습니다.
첫 번째,CleaveNet Predictor는 내부 및 외부 테스트 세트 모두에서 뛰어난 예측 기능을 보여줍니다.훈련에 사용되지 않은 상동성 필터링 테스트 세트(mRNA 디스플레이 테스트 세트)에서, MMP13에 대한 모델의 예측 점수(Ŵₛₘ)는 실험적으로 측정된 표준화된 Z 점수(Zₛₘ)와 높은 상관관계를 보였습니다(피어슨 상관계수 r = 0.80). 연속 예측값을 "컷/미컷" 이진 분류로 변환했을 때도 모델의 성능은 동일하게 견고했습니다. 수신자 작동 특성(ROC) 곡선을 그리고 곡선 아래 면적(AUC)을 계산한 결과, 연구진은 모델이 다양한 결정 임계값, 특히 보편적으로 인정되는 컷 임계값(Zₜ=2.5)에서 높은 판별력을 유지하며 AUC가 0.98에 도달함을 확인했습니다. 완전히 다른 실험 방법을 사용한 독립적인 형광 테스트 세트를 이용한 보다 엄격한 검증도 수행되었습니다.
이 데이터 세트의 서열 길이, 아미노산 구성 및 검출 원리가 훈련 데이터와 다르더라도, 모델이 예측한 절단 점수는 실험값과 여전히 높은 양의 상관관계(MMP13의 경우 r = 0.80)를 유지하며, 실험적으로 검증된 "절단된" 서열과 "절단되지 않은" 서열을 정확하게 구분할 수 있다.이는 CleaveNet Predictor가 훈련 데이터 패턴을 기억할 뿐만 아니라 프로테아제에 의한 기질 분해를 지배하는 보편적인 생화학적 법칙을 포착할 수 있음을 강력하게 입증합니다.일반화 능력이 뛰어납니다.

둘째,연구자들이 CleaveNet Generator로 생성된 서열을 생물정보학적으로 분석한 결과, 해당 방법의 원리와 참신성이 밝혀졌습니다.단순히 단일 아미노산 위치 빈도의 무작위 샘플링에 기반한 "부위 독립적 제어" 서열과 비교했을 때, 생성 모델로 생성된 서열은 MMP 계열의 고전적인 절단 모티프를 더욱 정확하게 재현하며, 주요 기질 결합 포켓 영역에서 실제 실험 데이터와 더 유사한 아미노산 분포를 나타냅니다. 더욱 중요한 것은,생성된 서열은 전반적인 생물물리학적 특성(소수성 및 전하 등) 측면에서 실제 데이터 세트와 일치합니다.하지만 고품질의 서열 생성은 단순히 훈련 데이터를 복제하는 것을 의미하지는 않습니다. 서열 다양성 분석 결과, 생성된 서열과 훈련 데이터 세트에서 공유되는 고유한 장쇄 합성 펩타이드의 비율이 매우 낮다는 것을 보여주었으며, 이는 모델이 과적합을 방지하고 훈련 데이터에 포함되지 않은 새로운 서열 공간을 탐색할 수 있었음을 나타냅니다.
추가적인 기능적 클러스터링 분석 결과, 서로 다른 MMP에 의해 생성된 고득점 기질의 예측된 절단 활성 스펙트럼은 MMP 촉매 도메인의 계통 발생학적 관계를 기반으로 자연스럽게 클러스터링될 수 있음이 밝혀졌습니다.이는 생성 모델이 겉으로 드러나는 서열 패턴만 학습하는 것이 아니라, 단백질 분해 효소 진화 과정에서 나타나는 기능적 분화에 대한 정보까지 내재적으로 포착한다는 것을 보여줍니다.이는 도출된 결과의 생물학적 합리성을 입증합니다.

궁극적으로 모든 계산 설계의 타당성은 시험관 내 생화학 실험을 통해 검증되었습니다. 연구진은 CleaveNet을 이용하여 MMP13을 표적으로 하는 여러 후보 기질 세트를 합성했는데, 여기에는 생성 모델에서 직접 생성된 서열과 예측 모델에서 선별된 서열이 포함되었습니다. 형광 공명 에너지 전달(FRET) 절단 실험은 설득력 있는 결과를 보여주었습니다.CleaveNet 파이프라인을 사용하여 설계된 24개의 기질 모두 재구성된 MMP13에 의해 성공적으로 절단되어 100%의 적중률을 달성했습니다(TP3T).또한, 절단 효율의 중앙값은 훈련 세트에 있는 알려진 고효율 양성 대조 기질보다 유의미하게 높았습니다. 이는 이 공정이 고효율 기질을 설계할 수 있음을 입증합니다.
본 연구에서는 고도의 선택성을 갖는 기질 설계와 같은 더욱 어려운 과제를 해결하는 데 있어 해당 프로세스의 잠재력을 입증하기 위해, 생성 모델의 목표를 "높은 MMP13 선택성"으로 지정하는 조건부 생성 전략을 추가로 활용했습니다. 이후 수행된 대규모 병렬 시험관 내 스크리닝(12가지 MMP에 대한 95쌍의 기질) 결과, 조건부 유도를 통해 생성된 기질들이 높은 선택성을 나타냈습니다.절단 활성은 MMP13 쪽으로 상당히 편향되어 있어 선택성이 더 높습니다.
특히 주목할 만한 점은 설계된 기질 중 일부가 높은 절단 효율과 높은 선택성을 모두 갖추고 있다는 것입니다. 이는 원래 학습 데이터에서는 매우 드문 탁월한 조합으로, CleaveNet이 새롭고 고품질의 서열 공간을 탐색하는 강력한 능력을 보여줍니다.

요약하자면, 정확한 계산 예측부터 합리적인 서열 생성, 그리고 최종적인 습식 실험 검증에 이르기까지, 일련의 상호 연관된 결과들은 CleaveNet이 효율적이고 신뢰할 수 있으며 강력한 프로테아제 기질 설계 플랫폼을 구축했음을 보여줍니다. 본 연구는 프로테아제 활성 조절이라는 고전적인 난제에 대한 혁신적인 AI 솔루션을 제공할 뿐만 아니라, 향후 프로테아제 기능 연구 및 관련 신약 개발을 위한 새로운 방법론적 토대를 마련합니다.
AI 기반 혁신을 통한 프로테아제 기질 설계
CleaveNet의 AI 기반 프로테아제 기질 설계 기술은 전 세계 생명 과학 및 생물 의학 분야에서 혁신을 주도하고 있습니다.
워싱턴 대학교의 데이비드 베이커 연구팀은 과학 저널 '사이언스'에 획기적인 연구 결과를 발표했습니다.인공지능을 활용하여 복잡한 활성 부위를 가진 세린 가수분해효소(알려진 효소 계열 중 가장 큰 계열 중 하나)를 처음부터 설계한 것은 이번이 처음입니다.본 연구에서는 PLACER라는 새로운 기계 학습 네트워크를 소개했는데, 이 네트워크는 에스테르 가수분해를 효율적으로 촉매할 수 있는 활성 효소를 성공적으로 설계했을 뿐만 아니라, 예상치 못하게 5가지 새로운 단백질 접힘 패턴을 발견하여 이 효소 계열의 구조적 다양성을 크게 확장했습니다.
* 논문 제목: 세린 가수분해효소의 전산 설계
* 논문 링크:
https://www.science.org/doi/10.1126/science.adu2454
또한, 여러 유럽 대학의 공동 연구팀은 트랜스포머 아키텍처 기반의 일반 모델을 개발하여 프로테아제-기질 상호작용을 정확하게 예측할 수 있게 되었습니다. 이 모델은 전 세계 다양한 출처의 프로테아제 절단 데이터를 통합하여 종간 기질 서열을 효과적으로 예측합니다. 다양한 병원체(세균 및 바이러스 포함)의 프로테아제 연구를 통해 이 모델의 일반화 능력이 검증되었으며, 항감염제 개발을 위한 중요한 서열 설계 기반을 제공합니다.
계산생물학, 인공지능, 합성생물학의 지속적인 융합으로 인해, 프로테아제 기질 설계는 예술과 경험의 결합에 그쳤던 과학에서 고도로 합리화되고 공학적으로 설계된 연구 분야로 발전할 것으로 예상됩니다. 이는 신약, 진단 도구, 친환경 생체 촉매 개발을 가속화할 뿐만 아니라, 궁극적으로 생명 조절의 근본적인 논리를 밝혀내어 생명 기능의 맞춤형 프로그래밍이라는 새로운 시대를 열어줄 잠재력을 지니고 있습니다.








