데이비드 베이커의 최신 작품! 거대고리 펩타이드 결합제 프레임워크 RF펩타이드의 새로운 설계는 약물로 치료할 수 없는 단백질에 대한 새로운 가능성을 제공합니다.

인류가 질병과 싸워온 오랜 세월 동안, 약물 연구와 개발은 언제나 과학적 탐구의 최전선에 있었습니다. 그 중 소분자 약물은 제조가 쉽고, 세포 투과성이 강하고, 경구 투여가 편리하며, 제조 비용이 낮다는 장점으로 인해 약물 연구 개발에 주력하고 있습니다. 그러나 소분자 약물은 깊은 소수성 주머니가 없는 단백질에 대해서는 종종 무력합니다. 과학의 발전으로, 독특한 3차원 구조와 높은 친화성을 지닌 거대고리는 기존의 소분자 약물로는 도달하기 어려웠던 분자 표적을 조절할 수 있게 되었고, 이는 '치료 불가능'한 단백질에 대한 새로운 치료 가능성을 제공합니다.
그러나 전통적인 약물 개발은 천연물의 발견이나 고처리량 스크리닝 기술에 의존하는데, 이는 시간이 많이 걸리고 비용이 많이 듭니다. AI의 발전은 약물 설계에 새로운 혁신을 가져왔습니다. 최근에,2024년 노벨 화학상을 수상한 워싱턴 단백질 연구소의 뛰어난 계산 생물학자이자 소장인 데이비드 베이커의 팀은 다양한 단백질 표적에 대한 고친화도 거대고리 펩타이드 결합제를 설계하기 위해 혁신적인 확산 모델 기반 기술인 RFpeptides를 개발했습니다.
구체적으로, 이 기술은 루프 상대 위치 인코딩을 갖춘 변형된 RoseTTAFold와 RFdiffusion을 활용하여 정확한 거대고리 골격을 생성하고, ProteinMPNN과 Rosetta Relax를 통합하여 시퀀스 최적화를 구현하며, 표적화되고 효율적인 거대고리 설계를 달성하여 약물 개발과 진단 기술에 새로운 가능성을 열어줍니다. "딥 러닝을 활용한 고친화도 단백질 결합 거대고리의 정확한 신규 설계"라는 제목의 이 연구는 bioRxiv에 사전 인쇄본으로 게재되었습니다.
연구 하이라이트:
* RFpeptides는 α-나선, β-시트, 루프 형태를 포함한 다양한 2차 구조를 갖는 거대고리 설계에 탁월하며, 이는 특정 단백질 인터페이스에 맞게 조정 가능하여 치료 및 진단 응용 분야를 발전시킵니다.
* MCL1, MDM2, GABARAP 및 RbtA를 표적으로 하는 RF펩타이드 설계 거대고리는 모두 높은 결합 친화도를 나타냈습니다.
* RF펩타이드는 미해결 구조를 가진 단백질에 대한 새로운 결합제를 설계할 수 있으며, 미탐사 또는 미특성화 단백질에 대한 타겟 설계 규칙을 변경할 수 있습니다.

서류 주소:
https://doi.org/10.1101/2024.11.18.622547
공식 계정을 팔로우하고 "大环设计"라고 답장하여 전체 PDF를 받으세요.
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: MCL1, MDM2, GABARAP 및 RbtA 타겟팅, 거대고리 설계를 위한 표적 단백질 선택
거대고리 결합제에 대한 신규 설계 연구에서 연구팀은 항암 치료에 핵심적인 역할을 하는 MCL1을 첫 번째 표적 단백질로 선택했습니다.연구원은 RFpeptides 기술을 사용하여 9,965개의 다양한 순환 펩타이드 백본을 생성하고 ProteinMPNN과 Rosetta Relax 설계 프로세스를 사용하여 각 백본에 대해 4개의 아미노산 서열을 설계했습니다. 심층 학습과 물리적 지표를 기반으로 한 선별을 거쳐 최종적으로 27개의 디자인이 실험적 특성 분석을 위해 선정되었습니다.
이 연구는 또한 종양 억제 단백질 p53과 상호 작용하는 MDM2를 표적으로 삼았습니다.1만 개의 거대고리 골격이 생성되었고, 각 골격에 대해 4개의 아미노산 서열이 설계되었습니다. AfCycDesign이 예측한 40,000개의 디자인 중 7,495개가 MDM2에 효과적으로 결합되는 것으로 간주되었습니다.
GABARAP의 거대고리 화합물을 설계할 때,연구팀은 6개의 핫스팟 잔류물을 정의하고, 20,000개의 거대고리 골격을 생성하고, 아미노산 서열을 설계했습니다. 80,000개의 디자인 중 335개의 거대고리 디자인이 연구를 위해 선정되었습니다.
RbtA의 경우,연구팀은 AF2와 RF2를 사용하여 구조를 예측하고, 7개의 핫스팟 잔류물을 정의하고, 20,000개의 주쇄를 생성하고, 각 주쇄에 대해 4개의 아미노산 서열을 설계했습니다. 이 과정에서는 반복적인 ProteinMPNN과 Rosetta Relax가 설계 과정에 사용되었습니다.
RFpeptides: 표적 단백질을 표적으로 하는 거대고리의 새로운 설계를 위한 생성적 딥 러닝 파이프라인
RF펩타이드는 표적화되고 효율적인 거대고리 설계를 가능하게 합니다. 구체적으로, 루프 상대 위치 인코딩을 사용한 수정된 RoseTTAFold 및 RFdiffusion을 활용하여 정확한 마크로사이클 백본을 생성하고, 시퀀스 최적화를 위해 ProteinMPNN 및 Rosetta Relax를 통합합니다.

RFpeptides: RoseTTAFold2 및 RFdiffusion의 추가 확장
이 연구에서는 먼저 알려진 순환 펩타이드 구조에 대한 RoseTTAFold2(RF2) 구조 예측 네트워크의 모델링 능력을 평가했습니다. 아래 그림 A에서 볼 수 있듯이, 연구진은 순환 상대 위치 인코딩 메커니즘을 도입하여 RF2에 주요 개선을 이루었고, 이를 통해 자연적 순환 펩타이드 구조에 대한 강력한 예측이 달성되었음을 관찰했습니다.

연구자들은 이러한 성공을 바탕으로 순환적 상대 위치 인코딩을 통해 RFdiffusion도 유사한 네트워크 구조로 인해 거대고리 펩타이드 구조를 생성할 수 있을 것이라고 추론했습니다. 따라서 위의 그림 BC에서 보인 바와 같이, 이 연구에서는 RFdiffusion에 루프 상대 위치 인코딩을 추가하였고 다양한 거대고리 펩타이드의 강력한 생성을 성공적으로 관찰하였습니다.
연구팀은 루프의 상대적 위치 인코딩의 전이성에 영감을 받아 단백질 결합 매크로루프의 새로운 설계를 위해 RFdiffusion을 사용하기 시작했습니다. 아래 그림 D에 표시된 것처럼, 이 연구에서는 RFdiffusion 단백질 설계 과정에서 원형 상대 위치 인코딩을 사용하여 생성된 사슬에 대한 인코딩을 제공했습니다. 그런 다음 아래 그림 E에 표시된 대로 ProteinMPNN을 사용하여 거대고리 골격과 일치하는 아미노산 서열을 설계하여 RF펩타이드 구성을 완료했습니다. 아래 그림 F와 같이, RF펩타이드는 표적 단백질에 대해 다양한 2차 구조를 갖는 거대고리 화합물을 빠르게 생성할 수 있습니다.

거대고리 화합물: RF펩타이드 설계 제품을 기반으로 한 정제된 스크리닝
이 연구에서는 RFpeptides를 사용하여 다양한 표적에 대한 다양한 거대고리 화합물 백본을 생성한 후 ProteinMPNN과 Rosetta Relax를 계속 사용하여 생성된 주쇄에 국소적 변화를 가해 아미노산 서열의 다양성을 얻었습니다.
먼저, 연구진은 iPAE, 모델 유사성 평가, RF2 지원 스크리닝을 기반으로 AfCycDesign을 사용하여 거대고리 서열과 표적 구조를 템플릿으로 사용하여 설계된 단백질-거대고리 복합체를 다시 예측하고 높은 신뢰도로 설계를 선택했습니다.
두 번째로, 이 연구에서는 Rosetta를 사용하여 결합 친화도(ddG), 설계된 거대고리의 공간적 응집 경향(SAP), 계면 접촉의 분자 표면적(CMS)과 같은 품질 지표를 계산하여 후보물질 스크리닝을 세부화했습니다.
결국 연구자들은 몇 가지 선별된 설계를 선택하고, 화학 합성과 생화학적 특성 분석을 통해 실험을 통해 결합 친화도를 확인하고, 설계의 정확성과 효과성을 보장하기 위해 비교 시험을 통해 검증했습니다.
거의 완벽한 정확도로 RFpeptides의 결합 예측 능력이 검증되었습니다.
MCL1 및 MDM2를 표적으로 하는 거대고리 화합물의 설계 및 특성화
연구진은 RF펩타이드의 효과를 검증하기 위해 먼저 골수성 세포 백혈병 단백질 1(MCL1)을 첫 번째 표적 단백질로 선택하고 실험적 특성 분석을 수행했습니다. 아래 그림 AB에서 볼 수 있듯이,연구진은 MCB_D2(보라색)가 MCL1(회색 표면)에 가장 단단히 결합되어 2μM의 결합 친화도를 보였다는 것을 발견했습니다.
연구진은 거대고리가 설계된 방식으로 결합되었는지 확인하기 위해 MCL1에 결합된 MCB_D2의 X선 결정 구조를 결정했습니다. 아래 그림 C와 같이,결정 구조는 설계된 모델과 거의 동일합니다.Cα RMSD는 0.7Å입니다. 아래 그림 D에서 보듯이, 거대고리가 결정 구조와 중첩되면 Cα RMSD는 0.4Å이고, 결정 구조에서 상호작용하는 잔류물의 측쇄 형태도 설계된 모델에 매우 가깝습니다. 추가적인 결정 구조 분석에서, 그림 E와 F는 MCB_D2의 루프 영역이 MCL1과 소수성 접촉 및 양이온-π 상호 작용을 가지고 있다는 것을 보여주었습니다.

연구팀은 MCL1이 원형 분자에 결합한다는 실험적 검증에서 영감을 얻어 MDM2에 대한 결합제를 설계하기 시작했습니다. 다음 그림 GI에서 보여지는 바와 같이,연구진은 MDB_D8이 MDM2에 대한 가장 좋은 거대고리 화합물이며, 1.9μM의 높은 친화도를 보인다는 것을 발견했습니다.게다가 계산 모델링을 통해 예측한 인터페이스의 주요 접촉 지점은 기본 MDM2-p53 복합체 구조에서 관찰된 상호작용과 유사성을 공유합니다.

GABARAP를 표적으로 하는 거대고리 화합물의 설계 및 특성화
RF펩타이드를 더욱 자세히 분석하기 위해 연구진은 다음으로 MCL1과 MDM2의 구조와 완전히 다른 결합 부위를 갖는 화합물, 즉 감마 아미노뷰티르산 A형 수용체 관련 단백질(GABARAP)을 설계했습니다.
실험 결과는 그림 AB 및 DE에 표시된 것처럼GAB_D8과 GAB_D23은 모두 GABARAP에 효과적인 화합물로, 각각 6nM과 36nM의 친화도를 보이는데, 이 중 GAB_D8은 지금까지 발견된 GABARAP에 가장 효과적인 거대고리 화합물입니다.아래 그림 C 및 F에 표시된 것처럼, X선 결정 구조 분석 결과, GAB_D8-GABARAPL1 복합체의 구조가 설계 모델과 매우 일치하며, GAB_D23과 GABARAP 복합체의 구조도 설계 모델과 매우 일치하여 설계 모델의 주요 상호작용의 정확성이 검증되었습니다.

설계된 모델과 결정 구조 사이에 일부 영역에서 약간의 차이가 있지만, 다중 시퀀스 정렬(MSA)에 기반한 예측은 X선 결정 구조와 더 높은 일관성을 보입니다. 아래 그림 GI에서 볼 수 있듯이, 이러한 미세한 차이에도 불구하고 MSA 예측은 실험적으로 얻은 결정 구조와 여전히 더 일치합니다.

구조가 알려지지 않은 RbtA를 표적으로 하는 거대고리 화합물의 설계 및 특성화
또한 이 연구에서는 RF펩타이드가 설계 위험을 효과적으로 줄일 수 있는지 추측하기 위해 실험 구조가 알려지지 않은 표적 단백질에 대한 거대고리 화합물을 설계했습니다. RbtA를 예로 들면, 연구자들은 AF2와 RF2를 사용하여 단백질 구조를 예측한 최초의 연구자들이었으며, 두 가지 방법은 전반적으로 유사한 구조를 예측했습니다. 이를 바탕으로 연구진은 AF2와 RF2 사이에서 거의 동일할 것으로 예상되는 영역을 표적으로 삼는 RF펩타이드를 설계하기로 결정했습니다. 결과는 그림 AB에 표시된 것처럼RBB_D10은 RbtA의 강력한 거대고리 화합물로 9.4nM의 결합 친화도를 나타냅니다.

연구진은 RbtA와 RBB_D10 사이의 결합 모드를 확인하기 위해 아포와 RbtA 결합의 고해상도 X선 결정 구조를 추가로 분석했습니다. 위의 그림 C에서 보여지는 것처럼,X선 결정학을 통해 아포 구조가 예측된 구조(RMSD 1.2Å 및 1.1Å)와 매우 일치한다는 것이 확인되었고, 위 그림 D에 나타난 복잡한 구조는 설계된 모델(RMSD 1.4Å)과 거의 완벽하게 일치합니다.위의 그림 4E-H에 나타난 바와 같이, 거대고리 화합물의 X선 구조는 설계된 모델과 거의 일치합니다(RMSD 0.4Å). 이는 설계된 모델의 정확성을 검증합니다.
데이비드 베이커: 신의 손에서 노벨상 수상자로
화학 분야 노벨상의 거물급 수상자인 데이비드 베이커의 이름은 의심할 여지 없이 단백질 연구 분야에서 큰 상징입니다. 데이비드 베이커는 단백질 구조 예측에 있어 인공지능 분야의 핵심 인물 중 한 명으로, 단백질 구조 예측의 발전을 크게 촉진했을 뿐만 아니라 단백질 설계 분야에서도 성과 있는 성과를 거두었습니다.
2003년 초부터데이비드 베이커의 팀은 자연에서 유래하지 않은 최초의 새로운 단백질인 Top7을 설계했습니다.이러한 성과는 과학계를 놀라게 했을 뿐만 아니라, 새로운 단백질 설계 분야에서 인류에게 중요한 획기적인 진전을 의미하기도 했습니다.
원본 논문:10.1126/과학.1089427
Top7의 디자인은 인상적이지만, 특정 구조에 기반한 디자인일 뿐이며 실제 기능은 없습니다. 데이비드 베이커는 거기서 멈추지 않았습니다. 그와 그의 팀은 단백질 에너지를 계산하는 함수, 다중 백본 및 측쇄 샘플링 방법, 몬테카를로 시뮬레이션 및 연속 최적화 방법과 같은 전역 최적화 알고리즘을 포함하여 다양한 계산 방법을 계속 탐구하고 시도했습니다.
생성적 AI와 머신 러닝 기술이 발전하면서 특정 생물학적 기능을 갖춘 새로운 단백질을 설계하는 것이 가능해지고 있습니다. 2024년 6월, 데이비드 베이커의 팀은 또 다른 획기적인 성과를 거두었습니다. 그들은 새로운 고리 모양의 단백질을 설계했습니다.섬유아세포 성장 인자(FGF) 신호 전달 경로를 조절하고 혈관 분화를 촉진합니다. 이 연구는 신규 단백질 설계의 적용 범위를 넓힐 뿐만 아니라, 이 분야의 발전에 큰 영향을 미칠 수도 있습니다.
원본 논문:
https://www.cell.com/cell/fulltext/S0092-8674(24)00534-8
데이비드 베이커의 연구는 단백질 설계 분야를 크게 발전시켰습니다. 새로운 단백질 설계 분야에서의 그의 획기적인 성과는 우리가 새로운 시대의 문턱에 서 있음을 보여줍니다. 즉, 인간이 생명의 기본 구성 요소를 정확하게 조작할 수 있는 시대입니다. 이러한 기술의 개발과 응용을 통해 일련의 세계적 과제를 해결할 수 있을 것으로 기대됩니다.
