AlphaFolding은 단백질 동적 구조 예측의 빈틈을 메워줍니다! 복단대 등은 4차원 확산 모델을 제안했고, 그 결과가 AAAI 2025에 선정됐다.

단백질의 기능은 주로 3D 구조에 따라 달라집니다. 19세기 중반, 과학계에서는 단백질 구조가 "자물쇠와 열쇠 모델"과 유사하게 고정되고 단단하다고 일반적으로 믿었습니다.즉, 단백질과 리간드의 결합은 고정된 3차원 구조에 의해 결정됩니다.그러나 다니엘 코슐랜드가 효소가 기질과 결합하면 구조가 변화한다는 아이디어를 제안하면서 전통적인 사고방식에 도전이 시작되었습니다.
1980년대에 분자 동역학 시뮬레이션(MD)이 등장했습니다.단백질의 이동 궤적이 계산적 관점에서 처음으로 밝혀졌습니다.그 이후로 단백질 동적 구조의 기능적 역할이 점점 더 많은 관심을 받게 되었습니다. 생명공학 연구자와 과학자에게 단백질의 "운동"의 역동적인 특성을 이해하는 것은 생명 과정을 이해하고 새로운 약물을 개발하는 데 매우 중요합니다.
예를 들어, G 단백질 결합 수용체(GPCR)는 많은 약물의 주요 표적이며, 현재 FDA 승인을 받은 약물의 30% 이상을 차지합니다. 그러나 GPCR은 단단한 구조가 아니라 매우 역동적이며, 다양한 구조적 상태가 약물 결합 모드에 영향을 미칠 수 있습니다. 약물을 정적 결정 구조에만 기반하여 설계하면 주요 결합 부위를 놓칠 수 있으며, 그 결과 약물 친화성과 선택성이 부족해질 수 있습니다. 동적 구조 예측은 생리적 환경에서 GPCR의 다양한 형태를 식별하는 데 도움이 될 수 있습니다.이를 통해 소분자 약물의 설계가 최적화되고 표적 치료의 성공률이 향상될 것입니다.
이러한 맥락에서 복단대학교와 상하이과학기술연구소의 주시위(Zhu Siyu) 교수, 치위안(Qi Yuan) 교수팀은 난징대학교의 야오야오(Yao Yao) 교수와 함께혁신적인 4D 확산 모델인 AlphaFolding이 제안되었습니다.분자 동역학 시뮬레이션 데이터를 통합하여 동적 단백질 구조를 학습합니다. 이는 여러 시간 단계에 걸쳐 단백질 궤적을 동시에 예측할 수 있는 최초의 확산 모델 기반 방법입니다.
벤치마크 데이터 세트에 대한 검증 결과는 새로운 모델이 최대 256개 아미노산을 포함하고 32개 시간 단계에 걸쳐 동적 3D 구조를 예측하는 데 높은 정확도를 보이며, 안정된 상태에서의 국소적 유연성과 중요한 구조적 변화를 효과적으로 포착할 수 있음을 보여줍니다.
"참조 및 동작 안내를 통한 동적 단백질 구조 예측을 위한 4D 확산"이라는 제목의 관련 결과는 최고 국제 학회인 AAAI 2025에 선정되었으며, 사전 인쇄본은 arXiv에 게재되었습니다.

서류 주소:
https://arxiv.org/abs/2408.12419
공식 계정을 팔로우하고 "4D 확산성 단백질"에 답글을 남겨 전체 PDF를 받으세요.
오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
단백질 동적 구조 예측 연구에는 아직 공백이 있습니다.
AlphaFolding 모델은 구조생물학 연구에 있어서 중요한 발전으로 볼 수 있습니다. 구조생물학은 단백질과 같은 생물학적 거대 분자의 구조, 움직임, 상호작용을 연구하여 생명 현상을 설명하는 과학입니다. 이제 이는 분자생물학의 주류로 발전했습니다.
최근 몇 년 동안 딥 러닝 기술이 발전하고 단백질 데이터 뱅크(PDB)에 있는 실험 단백질 구조 데이터가 기하급수적으로 증가하면서 단백질 구조 예측 분야에서 여러 가지 중요한 획기적인 발전이 이루어졌습니다. 그 중 가장 잘 알려진 것은 AlphaFold2입니다.최신 인공지능 알고리즘을 사용하여 실험 정확도에 가까운 정확한 단백질 구조 예측을 달성합니다.관련 결과는 Science지에 의해 2020년 10대 과학적 혁신 중 하나로 평가되었습니다.
우연히도 2021년 7월, 워싱턴 대학의 생물학자 데이비드 베이커 팀이 개발한 RoseTTAFold가 "3트랙" 신경망을 구축했습니다.주어진 서열을 가진 단백질의 3차원 구조는 12분 안에 밝혀질 수 있습니다.
게다가 대규모 데이터 저장소의 이용으로 단백질 형태 샘플링 연구의 개발이 용이해졌습니다. 예를 들어, Microsoft Research에서는 Distributional Graphformer(DiG)라는 딥 러닝 프레임워크를 개발했습니다.평형 상태에서 분자 구조의 분포를 예측하는 것을 목표로 합니다.기존의 분자 동역학 시뮬레이션과 향상된 샘플링 방법을 사용하면 분자의 평형 분포를 얻을 수 있지만, 이러한 방법은 계산 비용이 많이 들고 시간도 오래 걸려서 복잡한 실제 응용 시나리오에 적용하기 어렵습니다. 반면 DiG는 딥러닝 기술을 사용하여 현실적이고 다양한 형태를 빠르게 생성합니다.
단백질 구조와 그 형태를 예측하는 데 있어 중요한 진전이 이루어졌지만, 동적 구조에 대한 연구는 아직 상대적으로 뒤처져 있습니다. 단백질의 3차원 구조를 정확하게 예측할 수 있는 AlphaFold2를 예로 들어보겠습니다.그러나 이 방법은 특정 순간의 단백질의 정적 구조만을 예측할 수 있을 뿐, 동적 변화는 예측할 수 없습니다.
2024년 5월, DeepMind는 업그레이드된 AlphaFold3를 출시했습니다. 이는 단백질, 핵산 및 더 작은 분자의 3D 구조를 포함하여 모든 생물학적 분자의 구조와 상호 작용을 전례 없는 "원자 정밀도"로 예측하고 이들이 어떻게 결합되는지 밝힐 수 있습니다.그러나 생물학적 분자의 동적인 3차원 구조를 예측하는 데는 여전히 큰 한계가 있습니다.
따라서 본 연구에서 새롭게 제안하는 혁신적인 4D 확산 모델은 실제로 이러한 연구 간극을 메우고, 단백질 구조의 역동적인 특성에 초점을 맞추고 단백질 기능에 대한 보다 깊은 이해를 위한 새로운 아이디어를 제공합니다. 연구진은 고품질 분자 동역학 시뮬레이션(MD) 데이터를 최대한 활용했습니다.수백 개의 아미노산으로 구성된 복잡한 단백질에 대해 전체 측쇄 표현을 포함한 동적 단백질 구조를 생성합니다.이를 통해 MD 시뮬레이션의 적용 범위가 확대되어 더 크고 복잡한 단백질 시스템의 동적 행동을 예측하고 단백질의 동적 특성에 대한 이해를 높일 수 있습니다.
여러 시간 단계에 걸쳐 단백질 운동 궤적을 예측하는 데 높은 정확도를 보여줍니다.
정적 단백질 모델은 비교적 쉽게 구성할 수 있지만, 동적 단백질 모델은 어떻게 표현해야 할까요? 이 문제를 해결하려면연구진은 AlphaFold2의 프레임 기반 단백질 구조 표현 방법을 사용하여 이를 시간 차원으로 확장했습니다.시간에 따른 구조적 변화를 설명합니다.
정적 단백질 모델링에서 단백질은 일련의 아미노산 잔류물로 구성되며, 각 아미노산 잔류물은 백본 프레임워크에 의해 매개변수화됩니다. 이 연구에서 연구진은 동적 단백질을 N개 아미노산 잔류물을 포함하고 그 백본 프레임워크가 S개 시간 단계 내에 변형되는 시스템으로 정의했습니다. 이러한 프레임은 로컬 프레임의 방향을 전역 참조 프레임에 유지하기 위해 특수 유클리드 변환을 사용하여 변환됩니다.
단백질의 모든 추가 원자 좌표는 화학적 구조적 무결성을 보장하기 위해 이면각에 대한 의존성을 기반으로 단단한 그룹으로 구성됩니다. 각각의 강체 그룹 내에서 모든 원자들의 상대적 위치와 방향은 변하지 않습니다. 변환 매개변수와 결합하면 이 모델은 시간 차원에서 이상화된 실험 좌표로부터 모든 원자 위치를 재구성할 수 있습니다.
이러한 기초 위에서, 아래 그림은 전체 연구 모델을 구축하는 방법을 보여줍니다. 확산 모델은 참조 구조와 해당 잔류물 서열(아미노산 잔류물 서열)을 입력으로 받고, 일련의 잡음이 제거된 3차원 단백질 구조(잡음이 제거된 3차원 구조)를 출력으로 생성합니다.

연구진은 3D 구조 임베더와 GeoFormer를 사용하여 각각 3D 단백질 구조와 잔류물 서열을 임베드했습니다. 불변점 주의(IPA)는 잔류물의 명시적 프레임워크 정보를 통합하여 노드 기능을 업데이트합니다.
참조 네트워크 및 동작 정렬 모듈은 참조 3D 단백질 구조를 기반으로 3D 단백질 동적 시퀀스를 캡처합니다. 전체 생성 모델은 점수 기반 확산 모델로 구성되며, 노드와 에지의 피처 임베딩은 각각 EdgeUpdate 및 BackboneUpdate 모듈을 통해 업데이트됩니다.
연구진은 모델을 구축한 후 ATLAS와 Fast-Folding Proteins을 포함한 데이터 세트를 사용하여 현재 단기-장기(S2L) 작업에서 DFF 및 Flow-Matching과 함께 제안된 프레임워크에 대한 비교 실험을 수행했습니다.
결과는 다음 표에 나와 있습니다. ATLAS 데이터 세트의 S2L 작업에서 제안된 방법은 R을 줄입니다.32 오차는 4.60에서 2.12로 감소했습니다.장기 예측의 정확도가 크게 향상되었습니다.Fast-Folding 데이터 세트에 대한 S2L 작업에서 제안된 방법은 R을 변환합니다.32 오차는 5.48에서 4.39로 감소했습니다.또한 장기적 예측 능력도 우수합니다.동시에, O2O 작업에서 제안된 모델의 성능은 S2L 작업에서와 비슷합니다.이는 우수한 일반화 능력을 나타냅니다.


더욱이 이 방법은 각 궤적 단계에서 더 큰 동적 변화를 보이는, 더 긴 시뮬레이션 시간을 갖는 단백질을 처리할 수 있습니다.실험 결과는 단백질 동역학을 모델링하는 데 있어서 이 방법이 효과적이라는 것을 더욱 입증했습니다.
한 걸음 더 나아가 연구진은 모델이 생성한 처음 두 개의 TIC(시간적 일관성 구성요소)의 동적 단백질 분포를 시각화하여 실제 데이터와 비교했습니다. 아래 그림과 같이,새로운 모델은 단백질의 동적 행동을 효과적으로 예측하며 실제 분포와 높은 일관성을 보입니다.

* 점이 어두울수록 주파수가 높아집니다. 파란색 곡선은 MD 데이터로부터 추정된 커널 밀도 분포를 나타냅니다.
아래 그림은 선택된 시간 단계에서 역확산 과정을 보여주며, 잡음 제거 과정 동안 단백질 구조가 점차 더 일관되게 되는 모습을 강조합니다. 보시다시피,제안된 방법은 단백질의 역학을 효과적으로 포착하고 합리적인 궤적을 생성합니다.

* 분홍색과 노란색 영역은 각각 α-helix와 β-sheet을 나타냅니다.
단백질 구조의 동적 특성이 더 많은 관심을 받게 될 것입니다.
단백질은 세포 환경 속에서 정적으로 존재하지 않고, 복잡하고 역동적인 변화 속에 존재합니다. 기존의 정적 구조 예측 방법은 단백질 접힘과 상호작용을 밝히는 데 있어 중요한 진전을 이루었지만, 단백질의 동적 행동을 완벽하게 포착할 수는 없습니다. 그러므로,동적 단백질 구조 예측은 구조 생물학과 계산 생물학의 최전선 과제 중 하나가 되었습니다.최근 들어 점점 더 많은 연구자들이 이 방향에 관심을 갖고 있습니다.
2022년 12월, 서호대학의 리지칭 연구팀은 샤먼대학과 더루이즈 제약과 협력했습니다.우리는 단백질의 구조적 변화를 특성화하고 친화성을 예측할 수 있는 AI 모델인 ProtMD를 개발했습니다.이는 단백질의 동적 형태를 분석하려는 최초의 AI 방법입니다. ProtMD는 약물 분자와 표적 단백질이 주어지면, 약물 분자가 체내에서 표적 단백질에 결합한 후 단백질 구조의 변화를 예측하고, 약물-표적 단백질 결합의 안정성을 추론하며, 약물 기능을 예측하여 AI 약물 설계의 정확도와 효율성을 높이고, 전임상 약물 개발을 가속화합니다.
관련 연구 결과는 "약물 결합을 위한 형태 유연성을 갖춘 등가 그래프 매칭 네트워크의 사전 훈련"이라는 제목으로 Advanced Science에 게재되었습니다.
* 서류 주소:
https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202203796
2024년 8월, 코네티컷 대학의 새로운 연구에서 고급 계산 모델과 도구가 공개되었습니다.단백질의 동적 특성과 결정화 경향을 정확하게 예측할 수 있습니다.관련 연구 결과는 "단백질 동역학은 단백질 구조를 알려줍니다: 단백질 결정화 경향에 대한 학제간 연구"라는 제목으로 재료 과학 저널인 Matter에 게재되었습니다. 이 연구는 단백질의 자연스러운 움직임과 변동, 즉 흔들리는 특성이 단백질의 기능적 특성, 특히 단백질이 고품질 결정을 형성하는 능력에 어떻게 영향을 미치는지에 초점을 맞춥니다.
2024년 10월, 상하이 교통대학교 정솽지아(Zheng Shuangjia)가 이끄는 연구 그룹은 스타파마테크놀로지(Star Pharma Technology), 중산대학교 약학대학, 라이스대학교와 함께단백질 동적 도킹을 위해 설계된 기하학적 심층 생성 모델 DynamicBind가 제안되었습니다.이 기술은 AlphaFold가 예측한 단백질 형태를 홀로그램과 유사한 상태로 효과적으로 조정하여 딥러닝을 기반으로 한 새로운 연구 패러다임을 제공하고 AlphaFold 이후 시대의 약물 개발을 위한 단백질의 역동적인 변화를 고려합니다.
관련 연구는 "DynamicBind: deep equivariant generative model을 이용한 리간드 특정 단백질-리간드 복합체 구조 예측"이라는 제목으로 Nature Communications에 게재되었습니다.
요약하자면, 동적 단백질 구조 예측은 생명 과정을 이해하는 데 도움이 될 뿐만 아니라, 약물 개발, 질병 메커니즘 연구, 산업 생명 공학 등에도 중요한 역할을 할 수 있습니다. GPCR 약물 설계, 단백질-단백질 상호작용, 효소 촉매 및 단백질 응집 병리학 연구부터 동적 구조 예측은 생명 과학의 최전선 개발을 지속적으로 촉진할 것입니다.
참고문헌:
1.https://www.forwardpathway.com/119037
2.https://www.westlake.edu.cn/news_events/westlakenews/academics/202212/t20221208_24193.shtml
3.https://www.cell.com/matter/abstract/S2590-2385(24)00196-6
