난카이대 정웨이 교수: 알파폴드는 완벽하지 않으며 학계는 여전히 "곡선에서 추월할" 기회가 있습니다.

최근 들어 딥러닝과 같은 AI 기술의 도움으로 단백질 구조 예측 분야가 급속히 발전했습니다. 2024년 10월, DeepMind의 데미스 하사비스와 존 M. 점퍼가 AlphaFold 덕분에 2024년 노벨 화학상을 수상했습니다. 하지만 이는 AlphaFold가 대체 불가능하다는 것을 의미하지는 않으며, 다른 훌륭한 알고리즘도 여전히 탐색해 볼 가치가 있습니다.
"Meet AI4S" 라이브 시리즈의 여섯 번째 에피소드에서,HyperAI는 난카이대학교 통계 및 데이터 과학 학부의 정웨이 교수를 초대하게 되어 영광입니다."알파폴드3의 왕좌는 안정적이지 않고, 학계가 추월하고 있다: 딥러닝을 기반으로 한 생물학적 거대 분자의 3차원 구조 예측과 상호작용"이라는 주제로, 그는 알파폴드의 한계와 향후 최적화 방향, 그리고 학계에서 탐구할 가치가 있는 알고리즘과 연구 주제에 대해 모든 사람과 공유했습니다.
* 공식 계정을 팔로우하고 "AI4S 6기 만나기" 댓글을 남겨주시면 발표 PPT를 받으실 수 있습니다.
HyperAI는 원래 의도를 훼손하지 않으면서 심도 있는 공유를 구성하고 요약했습니다. 다음은 연설 전문입니다.
AlphaFold의 한계
단백질은 생명 활동의 초석이며, 단백질의 3차원 구조를 예측하는 것은 생물학적 기능을 이해하는 데 중요합니다. DeepMind가 출시한 AlphaFold 2는 단백질 구조 예측을 새로운 차원으로 끌어올렸지만, 이것이 AlphaFold 2의 엔드투엔드 프레임워크가 모든 단백질 구조 예측 문제를 해결했다는 것을 의미하지는 않습니다.
우선 AlphaFold 2 자체를 예로 들면, 여전히 많은 한계가 있습니다.
* 정확도가 향상되어야 합니다.
공식 보고서에 따르면 AlphaFold 2는 90% 이상의 정확도로 구조를 예측할 수 있지만, 실제 작업은 그렇게 높은 수준에 도달할 수 없습니다.
* 다중 도메인 단백질 구조 예측은 제한적입니다.
AlphaFold 2는 단일 도메인 단백질을 예측하는 데는 좋은 성능을 보이지만, 도메인이 비교적 유연한 복잡한 다중 도메인 단백질의 경우 예측 정확도가 좋지 않습니다.
* 단백질 복합체 구조 예측은 제한적이다
일반적으로 단백질은 기능하기 위해 다른 단백질과 복합체를 형성해야 하지만, AlphaFold 2의 초기 버전에서는 이 문제를 해결하지 못했습니다.
* RNA 구조 예측, RNA-RNA, 단백질-RNA 구조 예측은 제한적입니다.
위에서 언급했듯이 이러한 문제는 초기 버전에서는 해결되지 않았습니다.
* 단백질 동역학/구조적 변화 예측은 제한적입니다.
실험적 분석 방법은 일반적으로 특정 순간의 구조적 상태만 포착할 수 있지만, 단백질은 유기체 내에서 정적으로 존재하지 않으며, 다른 시점에서의 구조는 다를 수 있습니다. 이러한 문제는 아직 AlphaFold 2에서 해결되지 않았습니다.

게다가 DeepMind가 AlphaFold 3를 개량했고, 우리 모두는 그것이 단백질 단량체 구조를 예측하는 데 좋은 성능을 보인다는 것을 알고 있지만, 복합체, 핵산, 소분자를 예측하는 정확도는 여전히 개선이 필요합니다. 그러므로,차세대 AlphaFold에는 다른 기능을 갖춘 예측 모듈이 추가될 수도 있습니다.예를 들어, 기존 모델이 주로 정적 구조를 다루는 데 사용된다는 점을 고려하여, 우리는 분자의 동적 과정을 탐구하고 단백질 구조를 예측할 것입니다. 또한 단백질 설계 분야도 포함되어 전체 예측 과정이 역전될 수도 있습니다.
따라서 AlphaFold가 등장한 이후에도 학계에서는 아직 해야 할 일이 많이 남아 있습니다.
AlphaFold 외에 탐색해 볼 만한 다른 방법이 있나요?
과거에는 단백질의 3차원 구조를 밝히기 위해 주로 X선, 핵자기공명(NMR), 극저온 전자현미경 등을 사용했습니다. 단백질 구조를 실험적으로 규명하는 데는 어려움이 따르고 비용도 많이 들기 때문에, 일부 팀은 단백질의 3차원 구조를 규명하는 데 몇 달에서 몇 년이 걸릴 수도 있습니다. 그 결과, 사람들은 알고리즘을 통해 단백질 구조를 예측하는, 보다 경제적이고 빠른 방법을 탐구하기 시작했습니다.
우리는 단백질이 주로 20종의 아미노산으로 구성되어 있으며, 일반적으로 영어 문자로 표시되고, 아미노산 분자도 많은 원자를 포함하고 있다는 것을 알고 있습니다.따라서 단백질 구조 예측 문제는 다음과 같이 요약할 수 있습니다. 이러한 문자로 구성된 아미노산 문자열을 입력하고 계산 알고리즘을 사용하여 단백질 서열의 각 아미노산에 있는 각 원자의 3차원 공간 좌표(x, y, z)를 예측합니다.
단백질 구조 예측의 전체 발전 역사를 살펴보면 비교 모델링 또는 상동성 모델링, 분자 동역학 시뮬레이션(MD), 스레딩 알고리즘, 드노보 예측, 접촉 맵의 딥러닝 예측을 기반으로 한 구조 예측 알고리즘 등 다양한 대표적인 알고리즘이 각 단계에서 등장했습니다. 주요 소개 내용은 다음과 같습니다.
* 비교 모델링 또는 동족 모델링
이 방법은 생물학적 진화의 원리에 기초하고 있습니다.서열 유사성이 높으면 단백질의 구조와 기능도 비교적 유사할 것으로 믿어진다.따라서 먼저 알려지지 않은 단백질의 아미노산 서열을 얻은 다음, 서열 정렬을 통해 PDB 데이터베이스에서 서열 유사성이 높은 해결된 단백질 구조 템플릿을 찾고, 이동이나 정렬을 통해 알려지지 않은 단백질의 구조를 예측할 수 있습니다.
*PDB 데이터베이스에는 이 분야에서 해결된 단백질 구조가 포함되어 있습니다.

* 분자 동역학 시뮬레이션
기본적인 아이디어는 단백질의 아미노산 서열을 기반으로 무작위로 초기 3차원 구조를 생성하고, 각 원자에 무작위 좌표를 할당하고, 원자의 위치를 조정한 다음, 미리 구성된 물리적 에너지장을 기반으로 다른 시간에 따른 단백질의 상태 에너지를 계산하는 것입니다.가장 낮은 에너지를 갖는 구조가 적절한 단백질 구조이다.

* 스레딩 알고리즘
상동성 모델링과 유사하게, 차이점은 서열 유사성이 높은 단백질은 구조가 유사한 경우가 많지만, 유사한 구조를 가진 단백질은 서열 유사성이 낮을 수 있으며, 그러한 단백질은 PDB 데이터베이스에서 적합한 템플릿 정보를 찾을 수 없다는 것입니다. 그런 다음 연구자들은 프로파일이라는 개념을 제안하고 수집된 상동 서열을 기반으로 다중 서열 정렬(MSA)을 사용하여 두 단백질 프로파일을 정렬하는 것과 같은 방식으로 서로 다른 아미노산을 정렬했습니다.
즉, 두 아미노산 서열이 다르더라도,하지만 그들의 프로필이 비슷하므로 구조도 비슷하다고 추정할 수 있습니다.이것을 사용하여 템플릿을 찾으세요.

* 새로운 예측
일부 단백질은 데이터베이스에 유사한 구조를 가지고 있지 않을 수 있습니다.그런 다음 연구자들은 전체 단백질 서열을 더 짧은 조각으로 나누어 데이터베이스에서 이러한 작은 조각의 템플릿을 찾은 다음 이러한 작은 조각 템플릿을 완전한 3차원 구조로 조립하여 예측을 시도했습니다.
구체적으로, 워싱턴 대학의 데이비드 베이커 교수는 로제타 소프트웨어를 개발했는데, 이 소프트웨어의 주요 원리는 단백질 서열을 많은 작은 조각으로 분해하고, 이 조각들을 무작위로 조립한 다음, 분자 동역학 시뮬레이션에서 개발된 에너지 함수를 사용하여 이를 최적화하고, 동적 시뮬레이션 및 에너지 최소화와 유사한 원리를 통해 구조 예측을 수행하는 것입니다.

* 연락처 지도
가장 중요한 아이디어는 단백질의 3차원 구조를 2차원 그래프로 변환하는 것입니다.단백질의 3차원 구조 정보가 사용됩니다. 즉, 모든 공간적 점의 좌표 위치를 사용하여 서로 다른 아미노산 사이의 거리를 계산합니다. 두 아미노산 사이의 거리가 특정 임계값보다 작을 경우 접촉이 형성된다고 가정하고, 그렇지 않으면 접촉이 형성되지 않습니다. 이 정의는 3차원 구조를 2차원 그래프로 압축하는 데 사용됩니다. 더욱이 이 2차원 접촉 지도의 정보는 단백질의 3차원 구조를 재구성하는 데 사용될 수 있습니다.
특히 연구자들은 딥러닝 기반 방법을 많이 개발했습니다. 핵심 아이디어는 먼저 다중 서열 정렬(MSA)을 구성하여 아미노산 i와 j의 프로필에 대한 공진화 정보를 관찰하는 것입니다. 왜냐하면 이러한 공진화 아미노산은 공간적으로 매우 가깝고 접촉을 형성하기 때문입니다. 이후, 공진화 정보는 학습을 위한 딥러닝 네트워크에 특징으로 입력되어 단백질 접촉 맵을 예측하고 단백질 3차원 구조를 복원합니다.
예를 들어, 정웨이 교수의 팀은 이전에 CI-TASSER라는 알고리즘을 개발했는데, 이는 현재 접촉 지도를 기반으로 단백질 구조를 예측하는 데 일반적으로 사용되는 방법입니다.

마지막으로, AlphaFold는 위에 나열된 많은 알고리즘의 기본 원리를 통합하여 단백질 서열을 직접 입력하고 구조를 출력할 수 있는 종단 간 프레임워크를 성공적으로 구축했습니다.
팀의 성과를 예로 들면, 학계가 추월할 수 있는 기회를 탐색합니다.
예를 들어 단백질 구조 예측은 생물의학 분야에 큰 영향을 미칩니다.정웨이 교수의 팀에서 현재 개발한 알고리즘은 알려지지 않은 바이러스 단백질 구조(신종 코로나바이러스) 예측, 극저온 전자 현미경을 사용한 단백질 구조 분석 지원, 생물학자들이 단백질의 진화적 기능을 이해하도록 돕기, 항체 스크리닝 등을 포함합니다.

또한, 아래 그림과 같이, 본 연구팀이 개발한 모든 단백질 단량체 및 복합체 구조 예측 알고리즘은 자동 서버 알고리즘으로 변환되어 연구 그룹 홈페이지에 공개되었습니다. 이 알고리즘은 전 세계 100개국 이상에서 90,000명 이상의 사용자에게 서비스를 제공했으며, 누구나 사용할 수 있습니다.
*전체 프로젝트 주소:
https://seq2fun.dcmb.med.umich.edu/DMFold

단백질 단량체 구조 예측 방법 DI-TASSER
단백질 단량체 구조 예측 문제는 항상 많은 주목을 받아왔습니다. AlphaFold 2 이전에 Zheng Wei 교수의 팀은 접촉 지도를 기반으로 구조 예측 연구를 수행해 왔습니다. AlphaFold 2가 등장한 후, 연구팀은 AlphaFold 2가 예측한 접촉 맵과 같은 공간적 제약을 이전에 개발된 알고리즘에 통합할 수 있을지 고민하기 시작했습니다. 따라서 공간적 제약, 메타게놈, 통계적 에너지 함수 등을 기반으로 합니다.연구팀은 단백질 단량체 구조 예측 알고리즘인 DI-TASSER를 개발하였고, 최적화 후 좋은 결과를 보였습니다.
아래 그림의 오른쪽 예에서 볼 수 있듯이, 빨간색은 DI-TASSER가 예측한 단백질 구조를 나타내고, 파란색은 실험적으로 분석한 구조를 나타냅니다. 보시다시피,DI-TASSER가 예측한 구조는 실험적으로 밝혀진 구조와 매우 유사합니다.이와 대조적으로, AlphaFold 2에서 예측한 구조는 정렬 후에도 실험 구조와 상당히 다르며 예측 정확도가 약간 낮습니다.

또한, 다양한 단백질 데이터세트에 대해 평가됩니다. 아래 그림의 오른쪽과 같이 단일 도메인과 다중 도메인을 예측할 때,DI-TASSER의 예측 정확도는 AlphaFold 2보다 높고, AlphaFold 3보다 훨씬 더 높습니다.

평가의 권위를 확보하기 위해 해당 팀은 내부 평가를 실시했을 뿐만 아니라, 해당 분야의 권위 있는 경쟁인 CASP에도 참여했습니다.
CASP 경연대회는 단백질 구조 예측을 위한 평가 방법을 표준화하는 것을 주 목적으로 하는 이 분야의 올림픽으로 알려져 있습니다. 단백질의 3차원 구조 예측 알고리즘에는 여러 유형이 있기 때문에 각 연구실에서도 자체 알고리즘을 개발했습니다. 평가 데이터 세트와 방법이 다를 수 있으므로, 각 연구 그룹은 일반적으로 자기들의 방법이 세계에서 가장 정확하다고 주장합니다. 이런 난제를 해결하기 위해 CASP 경연대회가 만들어졌습니다.
작년까지 CASP는 16차에 걸쳐 성공적으로 개최되어 32년간 이어져 왔으며, 데이비드 베이커 교수 팀과 딥마인드 팀 등 권위 있는 많은 팀이 참여했습니다.
DI-TASSER와 그 이전 알고리즘은 CASP 대회에 여러 번 참여했습니다. CASP 13-CASP 15에서 이 방법은 단백질 단량체 구조 예측 분야에서 선두적인 위치를 차지했습니다. CASP 15에서는DI-TASSER 알고리즘도 다중 도메인 평가에 참여했으며, 전반적인 정확도는 참여한 모든 연구 그룹의 정확도보다 우수했습니다.

단백질 복합체 구조 예측 방법인 DMFold
복잡한 구조 예측에 있어서 가장 큰 과제는 두 단백질 사이의 상대적인 비틀림을 예측하는 것인데, 이는 공진화 정보를 사용하여 분석할 수 있습니다.
예를 들어, 두 단백질의 단량체의 다중 서열 정렬(MSA)을 구성하고, 몇 가지 연결 방법을 기반으로 두 MSA를 하나의 MSA로 병합하고, 두 MSA 사이의 아미노산의 공진화 관계를 사용하여 서로 다른 단백질의 아미노산 간 거리를 추론하면, 공진화 정보를 딥 러닝 프레임워크에 통합하여 두 단백질 간의 상대적인 비틀림을 예측할 수도 있습니다.
이와 관련하여,정웨이 교수의 연구 그룹은 DeepMSA와 MetaSource 알고리즘을 개발하여 보다 심층적인 다중 시퀀스 정렬을 구축했습니다.또한 연구팀은 딥러닝, 메타게놈학 등을 활용해 단백질 복합체 구조 예측 알고리즘인 DMFold를 개발했습니다.

위 그림의 가장 오른쪽 사례에서 볼 수 있듯이, 위쪽은 실험적 분석을 통해 얻은 실제 구조이고, 왼쪽 아래쪽은 DMFold가 예측한 구조이며, 오른쪽은 AlphaFold 2가 예측한 결과입니다. AlphaFold 2가 예측한 구조는 비교적 혼란스럽고 비정상적인 촉수 모양의 확장을 가지고 있음을 알 수 있습니다. 이와 대조적으로 DMFold의 예측된 구조는 실험 구조와 매우 유사합니다.이는 DMFold 알고리즘이 복잡한 구조 예측에 있어 AlphaFold 2보다 우수함을 보여줍니다.
또한 DMFold는 대규모 시스템 단백질-단백질 복합체, 나노항체-항원 복합체, 점 돌연변이로 인한 구조 변화 등에서도 높은 정확도를 보여줍니다. CASP 15 경쟁에서 DMFold의 전반적인 순위는 AlphaFold 2보다 훨씬 높고, CASP 16에서도 DMFold는 AlphaFold 3보다 더 좋습니다.

RNA-RNA 복합체 구조 예측 방법 ExFold
최근 몇 년 동안 연구팀은 RNA 구조 예측 문제에 집중하기 시작했습니다. 예를 들어, 그들은 Transformer와 RNA 빅 언어 모델과 같은 딥러닝 모델을 사용하여 RNA/RNA 복합체 구조 예측 알고리즘인 ExFold를 개발했습니다.
아래 그림의 오른쪽 예에서 볼 수 있듯이 회색 부분은 실험 구조이고, 색깔이 있는 부분은 예측 구조입니다. 보시다시피,ExFold 방법을 사용하면 두 구조가 잘 정렬되었습니다. 이와 대조적으로 AlphaFold 3의 예측은 두 RNA 분자 사이에 아무런 접촉도 없다는 것을 보여주었는데, 이는 거의 완전히 잘못된 것으로 간주될 수 있습니다.

연구팀은 또한 아래 그림의 왼쪽에 표시된 것처럼 더 큰 데이터 세트를 사용하여 ExFold 3와 AlphaFold 3의 정확도를 비교했습니다. Y축은 ExFold의 예측 정확도를 나타냅니다.X축은 AlphaFold 3의 예측 정확도를 나타냅니다. ExFold의 장점이 여전히 매우 명확하다는 것을 알 수 있습니다.

또한, CASP 16 RNA 복합체 구조 예측 경진대회에서는ExFold는 전체적으로 1위는 아니지만 모든 자동 알고리즘(서버 알고리즘) 중에서는 가장 높은 순위를 기록했습니다.
* CASP 경기는 자동그룹과 수동그룹으로 나뉩니다. 자동 그룹은 3일 이내에 예측 결과를 완전 자동으로 제출해야 하며, 인간의 개입은 허용되지 않습니다. 수동 그룹은 3주 동안 전문가 경험과 수동 조정을 추가할 수 있습니다.
단백질-RNA 복합체 구조 예측 방법 DeepProtNA
단백질-RNA 복합체 구조 예측 문제와 관련하여 연구팀은 Transformer와 최근 유행하는 대규모 언어 모델과 같은 딥러닝 모델을 사용하여 새로운 구조 예측 알고리즘인 DeepProtNA를 개발했습니다.
아래 오른쪽 예에서 볼 수 있듯이, 항체-RNA 복합체에서 색상은 DeepProtNA의 예측 결과를 나타내고, 회색은 실험 구조를 나타냅니다. 정렬 후, 우리는 다음을 찾을 수 있습니다.DeepProtNA의 예측된 구조는 실험 구조(회색과 색상이 겹침)와 매우 일치합니다.특히 항체 단백질과 항원 RNA 사이의 계면에서 예측 정확도가 매우 높습니다. 반면, AlphaFold 3의 예측 구조는 실험 구조와 거의 겹치지 않아 예측 효과가 약합니다.

또한,DeepProtNA는 AlphaFold 3보다 약 7.5% 포인트 더 정확합니다.CASP 16 서버 그룹 대회에서 1위를 차지했습니다.

EnsembleFold: 생체거대분자의 이성질 구조를 예측하는 방법
또한 이 팀은 생물학적 거대 분자의 이성질 구조를 예측하는 문제에 중점을 두고 있습니다. 거대 분자 다중 구조 문제의 입력은 단백질 서열이고, 출력은 서로 다른 상태의 단백질의 여러 핵심 프레임입니다. 즉, 정적 예측 알고리즘과 비교했을 때 단일 아미노산 서열에서 여러 가지 다른 구조를 예측해야 하며, 이러한 구조는 전체 동적 프로세스의 핵심 프레임을 나타냅니다. 이는 현재 분야에서 많은 주목을 받고 있는 주제이지만 예측하기는 어렵습니다.
이전에 개발된 방법을 통합하고 거대 분자 이성질성을 위해 최적화함으로써,연구팀은 몇 가지 클러스터링 알고리즘을 개발했고 마침내 EnsembleFold라는 알고리즘을 완성했습니다.
아래 그림의 오른쪽 예에서 볼 수 있듯이, 소분자와 결합한 후 단백질의 구조적 변화가 설명됩니다. 파란색은 소분자가 결합되지 않았을 때의 실험적 구조를 나타내고, 빨간색은 녹색 소분자에 결합한 후의 기울기와 구조적 변화를 나타냅니다. 연구팀은 입력 단백질 서열을 기반으로 두 개의 구조를 예측했는데, 이는 검은색 부분입니다. EnsembleFold의 예측된 구조는 소분자에 결합되지 않았을 때의 실제 구조와 매우 일치함을 알 수 있습니다. EnsembleFold는 작은 분자에 결합한 후에도 실험 구조에 잘 들어맞을 수 있습니다. 그러므로,EnsembleFold는 생체거대분자의 구조적 변화를 예측하는 데 매우 높은 정확도를 보여줍니다.

동시에,AlphaFold 3와 비교한 결과, EnsembleFold의 정확도가 약 12.4% 더 높은 것으로 나타났습니다.이는 CASP 16의 모든 거대분자 구조 경쟁 중 1위를 차지했습니다.

흥미로운 예로 이 팀이 CASP에서 박테리오파지 DNA 인테그레이스의 구조적 변화를 예측한 것이 있습니다. 아래 그림과 같이 박테리오파지의 아미노산 서열은 P-P'로 표현되고, 박테리아의 유전물질 서열은 B-B'로 표현됩니다. 박테리오파지 DNA 인테그레이스는 역동적인 과정을 통해 파지의 유전 물질 P'를 박테리아의 유전 물질 B에 통합하여 B-P'를 형성하고, 구조가 변화합니다.
연구팀은 이러한 다중 구조 변화를 예측하기 위해 알고리즘을 사용했습니다. 실험 구조는 왼쪽에 표시되어 있으며, 통합되지 않은 상태(구조 1)는 위쪽에 있고 통합된 상태(구조 2)는 아래쪽에 있습니다. 연구팀의 예측은 이 두 가지 다른 형태를 정확하게 반영할 수 있다는 것을 알 수 있습니다.

CASP 16 대회에서는 다음과 같은 점을 언급할 가치가 있습니다.참가자들은 단지 서열 정보만 받았을 뿐 구체적인 생물학적 과정이나 구조적 변화에 대한 세부 사항은 알지 못했습니다. 하지만 정웨이 교수의 팀은 예측을 통해 전체 생물학적 과정을 성공적으로 복원했습니다.경기 후 요약에서 심판들도 놀라움을 표했다.
연구 그룹 모집
난카이대학교 통계 및 데이터 과학부의 정웨이 교수는 오랫동안 단백질과 같은 생물학적 거대 분자의 구조, 기능 및 상호 작용에 대한 예측 연구에 헌신해 왔습니다. 그는 AlphaFold2/3보다 정확도가 더 높은 다수의 단백질 단량체, 단백질 복합체, 핵산 및 복합체, 단백질-핵산 복합체 구조 예측 알고리즘과 구조 평가 알고리즘의 개발을 주도했습니다. 그는 세계 단백질 구조 예측 경진대회(CASP)(CASP13-16)의 많은 대회에서 우승을 차지했으며, 전 세계 80개 이상의 학계/산업계 연구 그룹을 이끌었습니다.
그가 근무하는 난카이대학교 통계 및 데이터 과학부의 생물정보학 팀에서 새로운 멤버를 모집하고 있습니다.석사, 박사, 박사후 연구원 등 계산 구조 생물학, 생물정보학 또는 데이터 과학에 관심이 있으시다면 Zheng Wei 교수님의 팀에 합류하시기를 환영합니다.
관심 있는 학생은 다음 방법을 통해 Zheng Wei 교수에게 연락할 수 있습니다.
* 이메일: jlspzw@nankai.edu.cn
* 위챗: 18622152765
