ICML에 선정되었습니다! MIT팀, AlphaFold 기반으로 단백질의 역동적 다양성 밝혀내며 새로운 돌파구 마련

단백질은 생물체의 중요한 구성 요소로서 다양한 상태를 갖고 있으며, 집단 운동이나 무질서한 변동의 다양한 구조적 조합을 기반으로 복잡한 3차원 구조를 채택하여 풍부한 생물학적 기능을 수행합니다. 예를 들어, 단백질의 구조적 변화는 운반체, 채널, 효소의 기능에 중요한 역할을 하며, 균형 잡힌 조합의 특성은 분자 상호작용의 강도와 선택성을 제어하는 데 도움이 됩니다.
최근 몇 년 동안 AlphaFold와 같은 딥러닝 방법은 단백질의 단일 상태 모델링에서 큰 성공을 거두었지만, 구조적 이질성을 설명하지는 못했습니다. 따라서 구조 생물학자들에게는단일 구조를 정확하게 예측하는 동시에 잠재적인 구조적 조합을 밝혀내는 방법은 무엇일까?이는 긴급하게 해결해야 할 어려운 문제입니다.
최근 MIT 연구팀은 AlphaFold와 ESMFold의 새로운 샘플링 방법을 결합하여 흐름 매칭 기술을 통해 단백질의 구조적 공간을 관찰하고 이해할 수 있는 새로운 관점을 제공했습니다.
이 연구에서는 두 가지 다른 시나리오에서 흐름 매칭 변형인 AlphaFlow와 ESMFlow의 성능을 보여줍니다.이 모델은 최종적으로 PDB에서 미세 조정을 거쳤고 ATLAS 데이터 세트에서 추가로 학습되었습니다. 두 가지 모두 기존 MSA 기준선을 뛰어넘어 형태적 유연성과 원자 위치 분포 모델링을 예측할 뿐만 아니라 고차 그룹 관찰을 복제하는 데도 상당한 진전을 이루는 등 뛰어난 성능을 보였습니다.
"AlphaFold Meets Flow Matching for Generating Protein Ensembles"라는 제목의 관련 연구는 AI 분야 최고 학술대회인 ICML 2024에 선정되었습니다.

서류 주소:
https://openreview.net/forum?id=rs8Sh2UASt
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 실험 결과의 공정성을 보장하기 위해 PDB 및 ATLAS 데이터 세트를 기반으로 함
우리 모두 알고 있듯이 AlphaFold는 PDB의 구조를 기반으로 종단 간 방식으로 개발되고 학습되었지만 ESMFold는 단백질 언어 모델(PLM)의 임베딩을 입력으로 사용했습니다. 그러므로,본 연구에서는 주로 PDB 데이터셋과 MD 데이터셋을 활용하였다.
먼저, PDB에서 구조적으로 이질적인 단백질의 테스트 세트를 구성하기 위해 SIFTS 주석 데이터베이스와 PDB 사슬에서 UniProt 참조 시퀀스로의 잔류물 수준 매핑을 사용하여 저장된 각 사슬을 단편과 연관시켰습니다. 이후, 클러스터의 모든 조각은 0.75의 Jaccard 유사도 임계값을 기준으로 완전히 연결되었으며, 각 결과 클러스터를 고유한 단백질로 처리했습니다.이로 인해 75,000개의 단백질이 생성되었습니다.
또한 연구에서는 다음 내용을 수집했습니다.
* AlphaFold 학습 마감일 전에 사슬을 제출하지 않았지만 마감일 이후에 2~30개 사슬을 저장한 단백질.
* 256~768개 잔기 길이를 갖는 단백질
* 사슬 클러스터링 임계값이 0.85 대칭 lDDT-Cα이고 완전한 연결성을 가질 때 구조적 클러스터가 2개 이상 있는 단백질입니다.
마지막으로 2,843개의 사슬로 구성된 563개의 단백질이 얻어졌습니다.연구진은 500개의 사슬로 표현되는 100개의 단백질을 추출하여 테스트 세트를 구성했습니다.
두 번째로, 연구진은 MD 데이터 세트를 기반으로 ATLAS 데이터 세트를 구축했습니다.후자는 ECOD 도메인 분류에 따라 선택된 1,390개의 단백질로 구성되었습니다.각 단백질에 대해 데이터 세트는 길이가 100ns인 반복 시뮬레이션을 3회 제공하며, 각 시뮬레이션에는 10,000개의 프레임이 포함됩니다. 이러한 궤적에 대한 학습과 검증을 위해, 제공된 시퀀스와 ColabFold MMSeqs2 파이프라인을 사용하여 1,390개 ATLAS 항목 전체에 대한 MSA를 먼저 생성했습니다.
이후 연구진은 2018년 5월 1일과 2019년 5월 1일을 각각 훈련 및 검증 마감일로 사용하여 훈련 파이프라인에서 300개의 형태를 무작위로 선택했고, 최종적으로 훈련, 검증 및 테스트 세트로 구성된 1265/39/82 세트를 얻었습니다.

모델 구축: AlphaFold를 잡음 제거 모델로 사용하여 단백질 컬렉션에 대한 흐름 매칭 수행
AlphaFold와 동일한 정확도와 일반화 기능을 갖춘 분포 모델을 재개발하는 데에는 상당한 어려움이 따르므로, 이 연구에서는 생성 모델의 최근 개념적 발전을 활용합니다.AlphaFold를 생성 모델로 재사용하는 것은 거의 간단합니다.

현재까지 텍스트에서 이미지로의 전형적인 확산 모델 아키텍처는 거의 모두 텍스트 큐 s에 따라 조건화된 이미지 x의 조건부 분포 p(x | s)를 모델링합니다. 이러한 모델의 핵심은 노이즈가 있는 이미지와 텍스트 프롬프트를 입력받아 깨끗한 이미지를 예측하는 노이즈 제거 신경망입니다.
이러한 조건에 따라 이러한 모델은 일반적으로 간단한 평균 제곱 오차(MSE) 목표를 사용하여 훈련됩니다. 마찬가지로, AlphaFold나 ESMFold와 같은 회귀와 유사한 손실 함수로 학습된 단백질 구조 예측기는 추가적인 노이즈 구조 입력을 제공하기만 하면 노이즈가 제거된 모델로 변환될 수 있습니다. 이러한 구조적 조정을 통해 이 연구에서는 AlphaFold와 ESMFold를 반복적 노이즈 제거 기반 생성 모델링 프레임워크에 더욱 삽입할 수 있습니다.
본 연구에서는 흐름 매칭 생성 프레임워크의 설계가 조건부 확률 경로 pt(x | x1)과 이에 대응하는 벡터장 ut(x | x1)을 선택하는 것과 동일하다고 믿습니다. 따라서 본 연구에서는 q(x0)에서 노이즈 x0를 샘플링하고 이를 데이터 포인트 x1과 선형 보간하여 조건부 확률 경로를 정의함으로써 재매개변수화된 신경망 x1(x, t; θ)를 정의한다.따라서 AlphaFold 아키텍처는 잡음 제거 모델로 사용됩니다.
단백질 구조에 흐름 매칭을 적용하기 위해 이 연구에서는 β-탄소(글리신의 경우 α-탄소)의 3D 좌표로 구조를 설명합니다: x ∈ R^N×3. 이를 통해 신경망에 대한 입력은 항상 폴리머와 유사하고 물리적으로 타당한 3차원 구조가 됩니다.
흐름 매칭 프레임워크는 노이즈 프로세스를 정의하고 역전시키는 작업을 포함하므로 단백질 구조의 고조파 확산과 많은 유사점을 가지고 있으며, 둘 다 동일한 사전 분포로 수렴합니다. 그러나 보다 일반적인 틀로서,스트림 매칭은 2가지 주요 이점을 제공합니다.
첫 번째,고조파 확산은 무한한 시간 제한 내에서만 사전 분포로 수렴하며, 수렴 속도는 데이터의 차원, 즉 단백질 크기에 따라 달라집니다. 비교적 작은 크기의 작물에 대해서만 학습할 경우 추론 시점에 분포가 변화하게 됩니다.
둘째,흐름 매칭은 PDB에서 흔히 누락된 잔류물을 간단히 생략함으로써 쉽게 처리할 수 있는 방법을 제공합니다. 이와 대조적으로, 고조파 확산은 원자 위치 사이에 종속성을 생성하므로 누락된 잔류물에 대한 데이터 보간이 필요합니다.

마지막으로, 이 연구에서는 프로세스 매칭 프레임워크를 기반으로 PDB에서 AlphaFold와 ESMFold의 모든 가중치를 미세 조정했으며, 사용된 AlphaFold와 ESMFold의 학습 마감일은 각각 2018년 5월 1일과 2020년 5월 1일이었습니다. 이 훈련 단계가 끝나면 연구는 AlphaFold와 ESMFold의 흐름 일치 변형을 얻었습니다.그리고 그것을 AlphaFLOW와 ESMFLOW라고 불렀습니다.
MD 앙상블을 통한 학습 능력을 평가하기 위해 두 모델은 모든 원자 MD 시뮬레이션이 포함된 ATLAS 데이터 세트에서 추가로 미세 조정되었습니다. 각각 43,000개와 27,000개의 추가 예제로 학습한 후,이 연구에서는 MD 특정 모델 변형인 AlphaFLOW-MD와 ESMFLOW-MD를 얻었습니다.
실험 결과: 기존 방법보다 성능이 뛰어나 구조 생물학 분야에서 폭넓은 응용 가능성이 있음
연구진은 먼저 PDB에 저장된 단백질의 다양한 형태에 대한 AlphaFLOW와 ESMFLOW의 성능을 평가했습니다.
이러한 목적을 위해 본 연구에서는 AlphaFold 학습 마감일(2018년 5월 1일) 이후에 다중 사슬과 구조적 이질성의 증거가 있는 100개의 단백질을 포함하는 테스트 세트를 구축하고 정밀도, 재현율, 다양성이라는 세 가지 주요 지표에 대해 평가했습니다.

결과에 따르면 AlphaFLOW는 MSA 하위 샘플링과 유사합니다. 둘 다 정확도는 떨어지지만 예측의 다양성은 증가하지만 MSA 하위 샘플링과 비교했을 때 AlphaFLOW 변형은 파레토 프런트를 훨씬 더 잘 추적합니다.
정밀도와 재현율 측면에서AlphaFLOW는 MSA 하위 샘플링과 매우 유사한 동작을 보입니다.다소 놀랍게도 두 접근 방식 모두 기준 AlphaFold와 비교했을 때 전반적인 회수를 크게 개선하지 못했습니다.
전반적으로 ESMFold와 ESMFLOW의 정확도는 AlphaFold 계열의 방법에 비해 상대적으로 낮습니다. 하지만 ESMFLOW는 기준 ESMFold에 비해 많은 다양성을 주입할 수 있습니다.정확도를 거의 희생하지 않고도 회수율을 개선할 수 있습니다.
또한, 이 연구의 RMWD 분석은 AlphaFlow가 원자의 평균 위치를 예측하는 면에서 AlphaFold보다 약간 더 나았고, 모델링 분산 측면에서 MSA 하위 샘플링보다 훨씬 더 나은 것으로 나타났습니다.

이 연구에서는 AlphaFLOW와 ESMFLOW가 ATLAS 데이터베이스에 있는 82개 단백질의 테스트 세트에 대한 프록시 MD 앙상블을 생성하는 능력을 추가로 평가했습니다. 이 연구에서는 각 방법에서 추출한 별도의 샘플을 사용하고 일련의 평가를 통해 샘플과 MD 인구의 유사성을 조사했습니다.
결과는 다음과 같습니다AlphaFLOW-MD는 유사성 측면에서 상당한 개선을 이루어 MSA 하위 샘플링의 성능을 훌쩍 뛰어넘습니다.

MD가 실제 값으로 간주되므로 수렴할 때까지 실행하는 데 비용이 많이 듭니다. 따라서 이 연구에서는 AlphaFLOW가 동일한 제한된 컴퓨팅 예산(예: GPU 시간) 하에서 더 나은 결과를 제공할 수 있는지 여부를 추가로 분석합니다. 이를 위해 이 연구에서는 AlphaFLOW에서 추출한 샘플 수를 줄였고(250개에서 4개로), MD 궤적의 길이를 단축했습니다(100ns에서 160ps로).
결과에 따르면 AlphaFLOW 앙상블의 품질은 일정하게 유지되지만 MD 궤적은 동일한 품질 수준에 도달하거나 이를 넘어서는 데 더 오랜 시간이 걸립니다.
단백질 일반 사전 훈련 모델 3가지가 두드러지고 구조 생물학 분야는 활력으로 가득 차 있습니다.
지난 몇 년 동안 단백질과 AI는 끊임없이 충돌하며 새로운 불꽃을 만들어냈습니다.현재, 단백질의 보편적 사전 훈련은 3대 기둥의 새로운 상황을 형성했습니다.즉, DeepMind의 Alphafold 시리즈, David Baker의 RoseTTAFold 시리즈, Meta ESM 시리즈입니다. 이 세 가지 모델을 바탕으로 관련 과학 연구 결과가 폭발적으로 늘어나기 시작했습니다. 2024년 상반기에만 Nature, Science 등 최고 학술지에 여러 연구 결과가 게재되었습니다.
2024년 3월, 노스캐롤라이나 대학교 의과대학, 캘리포니아 대학교 샌프란시스코 캠퍼스, 스탠포드 대학교, 하버드 대학교의 연구원들은 Science에 연구를 발표하여 이를 확인했습니다.AlphaFold2의 예측 구조는 미래의 약물 발견에 도움이 될 수 있습니다.연구팀은 AlphaFold2가 구조 생물학, 단백질 설계, 상호작용, 표적 예측, 기능 예측 및 생물학적 메커니즘 분야에서 상당한 실용성을 보였으며, 수십억 개의 화합물을 스크리닝하고 라이브러리를 단백질 구조와 매칭하여 잠재적인 신약을 검색할 수 있다는 것을 발견했습니다.
2024년 5월, Google DeepMind 팀은 Nature에 AlphaFold 3를 출시하여 단백질 접힘을 넘어 기술을 확장하고 단백질, DNA, RNA, 리간드와 같은 생명 분자의 구조와 상호 작용을 전례 없는 정밀도로 정확하게 예측했습니다. 이는 다음을 의미합니다.AlphaFold 3는 약물 설계와 유전체 연구를 더욱 가속화할 것입니다.인공지능 세포생물학의 새로운 시대를 열다.
AlphaFold 3가 출시되면서알파폴드 시리즈는 마침내 원자 기반의 완전한 기반을 구축했습니다.마찬가지로 RoseTTAFold 시리즈도 올해 상반기에 RoseTTAFold All-Atom을 성공적으로 출시하여 단백질 공유 결합 변형과 다중 핵산 사슬 및 소분자의 조립에 대한 합리적인 예측을 실현했습니다.
Alphafold3와 RoseTTAFold All-Atom의 도움으로 연구자들은 상상력의 힘을 최대한 활용하고 있습니다. 예를 들어, 2024년 6월, 한 국제 연구팀은 Nature Biotechnology에 AlphaFold 3와 RoseTTAFold All-Atom을 결합하는 전략을 사용하여 질병에 걸린 세포에 약물을 직접 보다 효과적으로 전달할 수 있는 새로운 유형의 단백질 스캐폴드를 성공적으로 설계하는 방법을 보여주는 논문을 발표했습니다. 이를 통해 치료 효과는 높이고 부작용은 줄였습니다. 이번 발견은 정밀 의학 분야에서 AI를 적용하는 데 있어 큰 진전을 의미합니다.
안타깝게도 2023년 8월, Meta는 ESMFold 팀을 해체하고 AI 상용화 촉진에 전념했습니다. 하지만 ESM 시리즈에 대한 연구는 멈추지 않았습니다. 예를 들어, 이 모델은 단백질 언어 모델링 분야에서 중요한 진전을 이루었으며 다중 규모 정보를 통합하는 통합 모델링 솔루션을 제공했습니다. 특히, 아미노산 정보와 원자 정보를 모두 처리할 수 있는 최초의 단백질 사전 훈련된 언어 모델입니다.
이것으로부터 알 수 있는 것은Alphafold 시리즈, RoseTTAFold 시리즈, ESM 시리즈가 서로 동등한 수준으로 발전하는 새로운 시대에,AI와 단백질 연구의 결합은 더욱 긴밀해질 것이며, 이는 단백질 구조와 기능에 대한 이해를 가속화할 뿐만 아니라 질병 치료, 약물 개발, 생명공학 응용 분야에도 혁명적인 변화를 가져올 것입니다. AI 기술이 가져온 획기적인 발전으로 구조생물학 분야는 더욱 활기를 띠고 있으며, 생물의학 분야에서도 새로운 장이 천천히 펼쳐지고 있습니다.