HyperAI초신경

AlphaFold가 응용 분야에서 새로운 이정표를 달성했습니다! 케임브리지 대학 팀은 무질서한 단백질 구조 세트를 정확하게 예측하기 위해 AlphaFold-Metainference를 제안합니다.

特色图像

2018년 말 AlphaFold가 등장한 이후, 단백질 구조 예측 분야는 AI의 지원을 받아 엄청난 변화를 겪었습니다. 오늘날 AlphaFold는 예측 정확도로 감동을 줄 뿐만 아니라 최신 버전에서는 예측 범위도 점차 확장하고 있습니다. 중국과학원 원사 시이공(石宜公)이 언론 앞에서 이에 대해 호의적인 논평을 한 것도 무리가 아닙니다. "제 생각에 이것은 인공지능이 과학 분야에 기여한 가장 큰 업적입니다. 또한 21세기 인류가 이룬 가장 중요한 과학적 혁신 중 하나이며, 인류의 자연 과학 탐구에 있어 매우 주목할 만한 역사적 업적입니다."

AlphaFold가 주도하는 단백질 구조 예측 혁명은 매우 빠르지만, 여전히 해결되지 않은 몇 가지 문제가 있습니다. 그 중에서도 무질서한 단백질에 대한 연구는 생명과학 분야에서 늘 어려운 문제였습니다. 이러한 단백질은 세포 신호 전달, 조절 과정 및 다양한 질병에 있어서 핵심적인 역할을 합니다.그러나 구조상의 특수한 이질성과 역동성 때문에 단일한 구조로 표현할 수 없습니다.따라서 단백질 구조의 정렬을 예측하는 연구만큼 의미 있는 진전을 이루지 못했습니다. AlphaFold의 성공은 과학자들에게 문제를 해결하는 새로운 방법을 제시했습니다.

최근, 케임브리지 대학의 연구팀은 새로운 연구 결과를 발표하면서 AlphaFold-Metainference라는 방법을 제안했습니다.이 방법은 AlphaFold가 예측한 정렬 오차(PAE) 맵과 분자 동역학(MD) 시뮬레이션의 거리 변화 행렬 간의 상관 관계를 사용하여 무질서한 단백질과 무질서한 영역을 포함하는 단백질의 구조적 앙상블을 구성합니다.이는 딥러닝 방법을 기반으로 무질서한 단백질 구조를 예측하기 위한 새로운 아이디어를 제공하고, AlphaFold의 적용 범위를 더욱 확대합니다.

현재 관련 연구 결과는 "무질서한 단백질의 구조적 앙상블에 대한 알파폴드 예측"이라는 제목으로 국제 학술지인 Nature Communications에 게재되었습니다.

연구 하이라이트:
* 예측의 한계를 돌파하고 고정밀 예측을 달성합니다. 이 연구는 AlphaFold가 무질서한 단백질 데이터에 대한 훈련을 받지 않고도 잔류물 간의 거리를 정확하게 예측할 수 있음을 확인했습니다.

* 예측 방법을 혁신하고 구조 컬렉션을 구축합니다. 이 방법은 AlphaFold가 예측한 거리를 구조적 제약 조건으로 사용하고, 메타 추론 프레임워크와 분자 동역학 시뮬레이션을 결합하여 무질서한 단백질과 무질서한 영역을 포함하는 단백질의 구조 컬렉션을 구성합니다.

* 딥러닝 방법을 심화하고 응용 범위를 확장합니다. 이 방법은 심하게 무질서한 단백질과 부분적으로 무질서한 단백질을 처리하는 데 효과적입니다. 생성된 구조 세트는 단일 AlphaFold 구조보다 실험 데이터와 훨씬 더 일관성이 있어, 무질서한 단백질 구조 예측 문제를 효과적으로 해결합니다.

서류 주소:

https://www.nature.com/articles/s41467-025-56572-9

오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 다중 소스 데이터의 엄격한 검증

딥러닝 모델을 훈련하는 측면에서, 무질서한 단백질의 구조적 집합은 수와 정확도 면에서 매우 낮지만, 정렬된 단백질에 대한 이용 가능한 정보를 바탕으로 무질서한 단백질을 예측할 수 있기 때문에, 연구진은 단백질 데이터 뱅크(PDB)에 있는 수많은 고해상도 접힌 단백질 구조를 사용하여 딥러닝 모델을 훈련했습니다.

실험 데이터 비교의 관점에서, 무질서한 단백질의 잔류물 간 거리에 대한 실험 정보를 얻는 것은 어렵고, 데이터 라벨 자체가 구조적 앙상블의 특성에 영향을 미칠 수 있습니다.이를 위해 연구진은 소각 X선 산란(SAXS) 데이터와 핵자기 공명(NMR) 확산 측정을 사용했습니다.이는 연구를 위해 무질서한 단백질 잔류물 간의 거리 분포에 대한 라벨 없는 정보를 제공하며, 이는 예측 결과를 비교하고 검증하는 데 사용됩니다.

또한, 추가 검증을 위해,연구진은 또한 CALVADOS-2(C2)를 사용하여 전체 원자 분자 동역학 시뮬레이션과 거친 입자 시뮬레이션을 통해 얻은 Aβ와 α-시누클레인의 구조 앙상블 데이터를 분석했습니다.이를 통해 AlphaFold의 예측 거리의 정확성이 더욱 검증되었습니다.

모델 아키텍처: 혁신적인 융합 메타 추론 방법

이 연구에서 설명하는 AlphaFold-Metainference 방법은 무질서한 단백질과 무질서한 영역을 포함하는 단백질의 기본 상태를 나타내는 구조 모음을 생성하는 데 사용됩니다.

이 접근 방식의 핵심은 AlphaFold가 예측한 잔류물 간 거리가 무질서한 단백질에 대해서도 비교적 정확하다는 관찰 결과에 기초하며, 따라서 메타 추론 프레임워크 내에서 분자 동역학 시뮬레이션의 구조적 제약 조건으로 사용될 수 있다는 것입니다. 간단히 말해서, 구조 앙상블을 생성하기 위해 AlphaFold-Metainference는 예측된 거리를 분자 동역학 시뮬레이션의 구조적 제약 조건으로 사용합니다.AlphaFold 거리 맵(배위도)을 구조 집합으로 변환합니다.

첫 번째는 AlphaFold 예측 거리입니다. 연구진은 AlphaFold의 거리 맵을 사용하여 잔류물 간의 평균 거리를 예측하고 특정 공식을 사용하여 예측된 거리와 표준 편차를 계산했습니다. 그런 다음 MMseqs2를 기반으로 다중 시퀀스 정렬을 수행했으며, 구조적 템플릿을 사용하지 않고 기본 설정의 AlphaFold 1.1.1 모델을 사용하여 예측을 수행했습니다. AlphaFold가 출력한 잔류물 간 거리는 2.15625에서 21.84375 Å까지 동일한 너비의 64개 빈으로 분포되며, 마지막 빈에는 21.84375 Å를 초과하는 거리도 포함됩니다.

그러면 메타추론방법을 결합해 보자. 소위 메타 추론은 베이지안 추론 방법으로, 최대 엔트로피 원리에 따라 사전 정보와 실험 데이터를 결합하여 구조 집합을 결정할 수 있습니다. 이 단계에서는연구진은 AlphaFold가 예측한 거리 그래프를 의사 실험 데이터로 사용하고 베이지안 메타 추론 방법을 적용했습니다.구조적 이질성을 체계적 오류(역장이나 전방 모델의 부정확성, 데이터의 무작위 오류, 앙상블의 표본 크기 제한으로 인한 오류 등)로부터 분리하여 구조적 앙상블을 결정합니다.

분자 동역학 시뮬레이션에서는 메타 추론 에너지 함수를 기반으로 계산이 수행되고, 오차 매개변수는 다중 복제 시뮬레이션과 깁스 샘플링을 통해 결정됩니다.마지막으로, CALVADOS-2 힘장을 사용하여 거친 입자 시뮬레이션을 수행했습니다.AlphaFold-Metainference를 구현합니다.

마지막 단계는 거리 제약 선택입니다. 이 단계에서는 AlphaFold가 예측한 거리가 거리 확률과 예측된 정렬 오차를 기준으로 필터링됩니다.선택 기준은 단백질 친수성과 예측 국소 거리 차이 검정(pLDDT) 점수를 결합하여 결정했습니다.구조화된 영역에서 잔류물 거리를 선택하기 위해 pLDDT 점수를 실험적으로 사용한다고 해서 구조 앙상블 생성을 최적화하기 위한 거리 제약 조건으로 사용하는 것을 배제하는 것은 아닙니다.

모든 분자 동역학 시뮬레이션은 AlphaFold가 예측한 구조에서 시작되었으며 NVT 앙상블에서 수행되었습니다. 각 시뮬레이션을 위해 6개의 복제본이 설정되었고, 각 복제본은 100만 단계 동안 실행되었으며, 시뮬레이션은 에너지 최소화 단계에서 얻은 서로 다른 초기 위치에서 시작되었습니다.시뮬레이션에서는 랑주뱅 적분기를 사용합니다.시간 단계는 5 fs이고, 마찰 계수는 0.01 ps⁻¹이며, CALVADOS-2 매개변수와 함수 형태를 갖춘 Cα 기반 모델이 사용됩니다.

그 중에서도 고도로 무질서한 단백질과 부분적으로 무질서한 단백질의 경우, PULCHRA를 사용하여 조립질 컬렉션의 모든 구조를 모든 원자 표현으로 변환한 다음 GROMACS를 사용하여 에너지를 최소화하여 더 정확한 구조를 얻었습니다.

연구자들이 제시한 결과는 원래 접힌 단백질의 본래 상태를 예측하기 위해 개발된 딥 러닝 방법을 사용하여 무질서한 단백질의 본래 상태를 나타내는 구조 모음을 생성하는 방법을 보여줍니다. 이 방법은 딥러닝을 기반으로 한 단백질 구조 예측의 범위를 크게 확장하고, 무질서한 단백질 구조의 예측에 대한 새로운 아이디어를 제공합니다.

실험 결과: 합리성을 완전히 검증

AlphaFold 예측 정확도 측면에서

연구진은 SAXS와 NMR 확산 측정이 모두 가능한 11개 단백질 세트를 비교한 결과, AlphaFold가 예측한 거리 분포와 SAXS에서 도출한 거리 분포가 잘 일치한다는 것을 발견했습니다. 연구자들은 아래 그림에서 보듯이, 접힌 단백질을 대조군으로 추가했습니다.

SAXS로 얻은 잔기 간 거리 분포와 고도로 무질서한 단백질에 대한 AlphaFold로 예측한 잔기 간 거리 분포 비교

AlphaFold가 예측한 거리 분포는 SAXA에서 파생된 분포 전체를 포괄하지 않는다는 점을 언급할 가치가 있습니다. AlphaFold가 예측한 거리는 최대 약 22Å이기 때문입니다. 실험 결과, 첨가된 대조군의 DKL 값은 0.037로, 고도로 무질서한 단백질 11종의 DKL 값(DKL 범위는 0.008~0.096)과 비슷한 수준이었다.이는 AlphaFold가 무질서한 단백질과 정렬된 단백질의 잔류물 간 거리를 예측하는 데 비슷한 정확도를 가지고 있음을 더욱 잘 보여줍니다.

또한 AlphaFold가 예측한 거리는 Aβ와 α-synuclein의 MD 앙상블과 CALVADOS-2 앙상블에서 역으로 계산된 거리와도 잘 일치합니다.

고도로 무질서한 구조 컬렉션의 검증에서

쌍별 거리 분포는 소각도 X선 산란 측정을 사용하여 계산할 수 있습니다. 연구진은 실험적으로 얻은 거리 분포를 AlphaFold-Metainference 시뮬레이션을 통해 결정된 구조 세트에서 얻은 거리 분포와 비교했는데, 이는 위에서 언급한 11개의 고도로 무질서한 단백질에 대한 것입니다.

동시에 연구진은 추가적인 비교를 위해 CALVADOS-2를 사용하여 얻은 거리 분포와 단일 AlphaFold 구조에서 직접 생성된 AlphaFold 유래 거리 분포도 보여주었습니다. 정량적 비교를 위해 연구진은 CALVADOS-2를 이용한 AlphaFold-Metainference에서 제공된 구조 앙상블이 단일 AlphaFold에서 파생된 구조보다 SAXS 데이터와 더 일관성이 있다는 것을 발견했습니다.

연구진은 또한 CamShift를 사용하여 각 시간 단계마다 역계산한 NMR 화학적 이동을 사용하여 구조적 앙상블을 비교했습니다.결과에 따르면 어떤 경우에는 AlphaFold-Metainference의 예측이 더 정확하다는 것이 나타났습니다.아래 그림과 같습니다.

SAXS 데이터와 분자 시뮬레이션을 통해 얻은 구조 앙상블에서 고도로 무질서한 단백질의 쌍별 거리 분포 비교

* SAXS로 얻은 실험적 쌍별 거리의 분포는 검은색 선으로 표시됩니다.

* AlphaFold 단일 구조 예측은 보라색 선으로 표현됩니다.

* AlphaFold-Metainference 구조 앙상블 예측은 녹색 선으로 표시됩니다.

* CALVADOS-2에서 얻은 쌍별 거리 분포는 주황색 선으로 표시됩니다.

부분적으로 무질서한 구조화된 컬렉션의 검증에서

연구진은 서로 다른 서열 길이를 갖고, 검증을 위해 SAXS 데이터를 이용할 수 있는, 질서 있는 도메인과 무질서한 도메인을 모두 갖춘 6개의 단백질 세트를 준비했습니다.

첫 번째는 TDP-43입니다. 이것은 모듈형 구조를 지닌 다기능 RNA 결합 단백질로, 전사, mRNA 전 스플라이싱, mRNA 안정성 조절을 포함한 다양한 세포 과정에 참여하며, ALS 및 기타 신경 퇴행성 질환과 관련이 있는 것으로 알려져 있습니다.

실험 결과, 연구자들의 필터링 기준을 적용하여 AlphaFold가 예측하는 거리를 선택한 다음 이러한 거리 제약 조건을 사용하여 AlphaFold-Metainference를 적용하면획득된 구조적 앙상블은 SAXS 데이터와 상당히 더 잘 일치합니다.DKL 값은 0.018에 불과합니다.이는 SAXS 데이터와 함께 AlphaFold 예측 구조를 직접 사용할 때의 DKL 값 0.582보다 더 좋습니다.아래 그림과 같습니다.

AlphaFold-Metainference를 사용하여 예측된 TDP-43 구조 모음

연구진은 아탁신-3과 인간 프리온 단백질을 분석했습니다. 전자의 경우, 위에서 설명한 TDP-43과 유사한 결과가 얻어졌는데, AlphaFold 단백질 구조 데이터베이스에서 직접 AlphaFold를 사용하여 얻은 예측 구조는 DKL 값이 0.653으로 SAXS 데이터와 일관성이 좋지 않았지만, AlphaFold-Metainference 시뮬레이션에서 AlphaFold 예측 거리를 선택하기 위해 필터링 기준을 적용했을 때는SAXS 데이터와 더욱 일치하는 구조 세트가 얻어졌습니다.DKL 값은 0.020에 불과합니다. 아래 그림과 같습니다.

AlphaFold-Metainference를 사용하여 예측된 Ataxin-3 구조 수집

후자의 경우 AlphaFold를 사용하여 AlphaFold 단백질 구조 데이터베이스에서 직접 얻은 예측 구조는 DKL 값이 0.1인 SAXS 데이터와 일관성이 좋지 않습니다.필터링 기준을 적용한 결과, SAXS 데이터와 더욱 일치하는 구조 세트가 얻어졌습니다.DKL 값은 0.053에 불과합니다. 아래 그림과 같습니다.

AlphaFold-Metainference를 사용하여 예측한 인간 프리온 단백질 구조 모음

연구진은 또한 CbpD, H16, PC라는 세 가지 다른 단백질도 연구했습니다. 결과는 다음과 같습니다.모든 경우에 있어서 실험적 분포와 역계산된 잔류물 간 거리 분포 사이의 일치도는 매우 좋습니다.그리고 이는 아래 그림 D에 표시된 것처럼 AlphaFold 단백질 구조 데이터베이스에서 직접 얻은 AlphaFold 단일 구조에 비해 상당한 개선입니다.

마지막으로, CALVADOS-2 방법과 비교했을 때, AlphaFold-Metainference는 6가지 단백질 중 4가지(ataxin-3, CbpD, H16 및 PC)에서 더 나은 성능을 보였고 나머지 2가지(TDP-43 및 인간 프리온 단백질)에서는 비슷한 구조적 앙상블을 생성했습니다. 아래 그림과 같습니다.

부분적으로 무질서한 단백질에 대한 SAXS 유래 및 AlphaFold 예측 쌍별 거리 분포 비교

딥러닝 기반 무질서 단백질 예측의 진전

지난 몇 년 동안 AlphaFold는 주로 접힌 단백질의 정적 구조를 예측하는 데 사용되었는데, 이로 인해 과학 연구 커뮤니티로부터 비판을 받기도 했습니다. 이 연구는 무질서한 단백질 구조의 예측에 잠재적인 응용 이점이 있음을 의심할 여지 없이 확인시켜 주었으며, 무질서한 단백질 구조 예측을 위한 새로운 연구 방향을 제시했습니다.

실제로 AI와 생명과학의 긴밀한 통합으로무질서한 단백질 구조의 예측에 관해 많은 논의가 있었습니다.AI를 이용해 생명의 신비를 밝히는 것도 현대 생명과학 분야에서 주류를 이루는 방법이 되었습니다.

예를 들어, 이전에 구조 생물학 분야 최신 의견에 게재된 논문에서는 내재적 무질서 단백질(IDP) 연구에 딥 러닝을 적용한 진행 상황을 논의하고, 무질서 단백질 예측과 구조적 앙상블 특성 분석을 촉진하는 데 있어서 딥 러닝의 역할을 설명했습니다.

관련 연구는 "본질적으로 무질서한 단백질에 대한 심층 학습: 향상된 예측부터 구조적 앙상블 해독까지"라는 제목으로 출판되었습니다.

* 서류 주소:

https://www.sciencedirect.com/science/article/pii/S0959440X24001775

우연히도 덴마크 코펜하겐 대학의 연구팀은 Nature에 "인간의 본질적인 무질서 프로테옴의 구조적 앙상블"이라는 제목의 무질서 단백질 연구에 관한 논문을 발표했습니다. 이 논문에서는 IDP의 무질서한 영역, 구조적 앙상블 및 관련 속성을 예측하기 위해 다양한 딥러닝 방법을 사용하는 것에 대해 논의했습니다. 여기에는 위에서 언급한 AlphaFold와 같은 딥러닝 방법과 단백질 언어 모델, 생성적 적대 네트워크 등이 포함됩니다.

*서류 주소:

https://www.nature.com/articles/s41586-023-07004-5

AI의 급속한 발전으로 인해 삶의 진정한 의미에 대한 우리의 이해가 가속화되고 있다는 점에는 의심의 여지가 없습니다. 영국의 과학자 존 켄드루가 X선 결정학을 이용해 최초의 단백질 구조를 알아내는 데 12년이 걸렸습니다. 이제 알파폴드가 수억 개 단백질 접힘의 미스터리를 푸는 데는 불과 몇 년이면 족합니다. 미래에 우리가 무질서한 단백질 구조를 예측할 수 없다고 단언할 사람이 누가 있겠는가?