설계된 단백질 변이체의 활성이 50배 증가했습니다! 칭화대학교 AIR의 저우하오(Zhou Hao) 팀은 확장 가능하고 보편적인 단백질 설계를 달성하기 위해 베이지안 흐름 네트워크 기반의 AMix-1을 제안했습니다.

特色图像

현재 단백질 기반 모델 분야 연구는 단백질 서열의 생물학적 특성에 완벽하게 적응하지 못하는 "BERT" 시대에 머물러 있습니다. 이전에는 AlphaFold와 ESM과 같은 AI 모델이 구조 예측, 역접힘, 기능적 특성 예측, 돌연변이 효과 평가, 단백질 설계 등 여러 분야에서 상당한 발전을 이루어 왔습니다.그러나 이러한 모델은 최첨단 대규모 언어 모델(LLM)과 유사한 확장 가능하고 체계적인 방법론이 아직 부족하며, 데이터 볼륨, 모델 규모 및 컴퓨팅 리소스의 증가에 따라 그 기능을 지속적으로 개선할 수 없습니다.

이러한 모델의 보편성이 부족하여 단백질 설계 분야에서 해결하기 어려운 과제가 발생했습니다. 모델은 단백질의 구조적 이질성을 포착할 수 없고, 단백질 설계에 대한 예측은 훈련 데이터의 범위를 넘어설 수 없습니다. 또한 NLP 방법론의 전환에 지나치게 의존하여 단백질 특성을 타겟으로 하는 독창적인 아키텍처 설계가 부족하게 되었습니다.

이러한 맥락에서, 청화대학교 지능형 산업 연구소(AIR)의 저우하오 연구 그룹은 상하이 인공지능 연구실과 협력하여 베이지안 흐름 네트워크를 기반으로 체계적으로 학습된 단백질 기반 모델인 AMix-1을 제안하여 단백질 설계를 위한 확장 가능하고 일반적인 경로를 제공했습니다.이 모델은 처음으로 "사전 훈련 확장 법칙", "새로운 능력", "맥락 내 학습" 및 "테스트 시간 확장"의 체계적인 방법론을 채택하고 이를 바탕으로 다중 시퀀스 정렬(MSA)을 기반으로 한 맥락적 학습 전략을 설계하여 단백질 설계의 일반적 틀에서 일관성을 달성하는 동시에 모델의 확장성을 보장했습니다.

관련 연구 결과는 "AMix-1: 테스트 시간 확장 가능 단백질 기초 모델로 가는 경로"라는 제목으로 arXiv 플랫폼에 게재되었습니다.

연구 하이라이트:

* 베이지안 흐름 네트워크를 기반으로 한 단백질 생성 모델에 대해 예측 가능한 스케일링 법칙이 확립되었습니다.

AMix-1 모델은 명시적인 구조적 감독이 필요 없이 시퀀스 수준의 훈련 목표만으로 단백질 구조에 대한 "지각적 이해"를 자연스럽게 개발합니다.

* 다중 시퀀스 정렬(MSA)을 기반으로 하는 상황적 학습 프레임워크는 기능 최적화에서 정렬 문제를 해결하고, 진화적 맥락에서 모델의 추론 및 설계 역량을 업그레이드하며, AMix-1이 보존된 구조와 기능을 가진 새로운 단백질을 생성할 수 있도록 합니다. 

* 검증 예산이 증가할 때 새로운 진화 기반 설계 접근 방식을 가능하게 하는 검증 비용 기반 테스트 시간 연장 알고리즘을 제안합니다.

서류 주소:

https://go.hyper.ai/6Lz0c

공식 계정을 팔로우하고 "AMix"라고 답글을 달면 전체 PDF를 받을 수 있습니다.

더 많은 AI 프런티어 논문: 

https://go.hyper.ai/owxf6

UniRef50 데이터 세트: 전처리 및 반복적 클러스터링

연구진은 모델 사전 학습 과정에서 전처리된 UniRef50 데이터셋을 사용했습니다. EvoDiff에서 제공한 이 데이터셋은 UniProtKB에서 파생되었으며, UniParc 시퀀스에서 반복적 클러스터링(UniProtKB+UniParc → UniRef100 → UniRef90 → UniRef50)을 통해 필터링되었습니다.41,546,293개의 훈련 시퀀스와 82,929개의 검증 시퀀스를 포함합니다. 1,024개 잔기보다 긴 시퀀스는 계산 비용을 줄이고 다양한 하위 시퀀스를 생성하기 위해 무작위 가지치기 전략을 사용하여 1,024개 잔기로 트리밍했습니다. 이러한 반복적인 과정은 UniRef50 시퀀스의 고품질, 중복되지 않고 다양한 표현을 보장하여 단백질 언어 모델에 대한 단백질 시퀀스 공간의 광범위한 커버리지를 제공합니다.

UniRef50 데이터세트를 다운로드하세요:

https://go.hyper.ai/JuYEM

체계적인 기술 솔루션

AMix-1은 단백질 받침대 모델에 대한 테스트 시간 확장을 구현하기 위한 체계적인 기술 솔루션의 전체 세트를 제공합니다.

사전 학습 스케일링 법칙:모델의 성능을 극대화하기 위해 매개변수, 샘플 수, 계산 노력을 균형 있게 조절하는 방법이 명확합니다. 

새로운 능력:이는 훈련이 진행됨에 따라 모델이 단백질 구조에 대한 "지각적 이해"를 갖게 됨을 보여줍니다.

맥락 내 학습:이는 기능적 최적화에서 정렬 문제를 해결하여 모델이 진화적 맥락에서 추론과 설계를 학습할 수 있도록 합니다. 

테스트 시간 확장:AMix-1은 검증 예산이 증가함에 따라 진화 기반 설계에 대한 새로운 접근 방식을 제시합니다.

훈련과 추론부터 설계까지 AMix-1은 단백질 기반 모델로서의 다재다능함과 확장성을 입증하여 실제 구현의 길을 열었습니다.

모델 성능 비교

사전 훈련 스케일링 법칙: 예측 가능한 단백질 모델 기능

AMix-1에 대한 예측 가능한 스케일링 법칙을 달성하기 위해 이 연구에서는 실험에서 800만에서 17억까지의 매개변수 범위를 갖는 다중 스케일 모델 조합을 설계했으며, 모델의 교차 엔트로피 손실과 계산량 간의 거듭제곱 법칙 관계를 정확하게 맞추고 예측하기 위해 통합 측정 지표로 부동 소수점 연산(FLOP)을 사용했습니다.

결과를 판단해 보면, 모델 손실과 계산 노력 간의 거듭제곱 법칙 곡선은 매우 일관성이 있으며, 이는 베이지안 흐름 네트워크를 기반으로 한 모델 학습 과정이 매우 예측 가능하다는 것을 확인시켜 줍니다.

다양한 노이즈 스케일에서 AMix-1의 스케일링 법칙

새로운 능력: 고급 모델 기능 달성

단백질 서열 학습에서 구조적 창발 연구는 일반적으로 "서열-구조-함수" 패러다임에 기반합니다. 단백질 모델링에서 최적화 동역학과 기능적 결과 간의 연관성을 검증하기 위해 연구팀은 예측 가능한 스케일링 법칙에 기반한 손실 중심 관점에서 창발 행동을 분석했습니다. 예측 교차 엔트로피 손실을 기준으로 삼아, 훈련 손실을 단백질 생성 성능에 경험적으로 매핑했습니다. 본 연구에서는 모델의 창발 능력을 세 가지 측면에 집중적으로 평가했습니다.

* 시퀀스 일관성 관찰을 기반으로 손상된 시퀀스 분포에서 시퀀스 수준을 복구하는 모델의 능력 

* 접힘성 관점에서 시퀀스 이해로부터 구조적 실현 가능성으로의 모델 전환

* 구조적 일관성을 통해 구조적 특성을 유지하는 모델의 능력을 판단합니다.

AMix-1 훈련 중 생성된 관련 데이터는 단백질 기반 모델의 "서열 일관성, 접힘성, 구조적 일관성" 능력의 출현 과정을 완벽하게 보여줍니다.데이터에 따르면 학습 중 모델의 모든 능력 지표는 교차 엔트로피 손실과 높은 상관관계를 보이며, 이를 통해 스케일링 법칙과 교차 엔트로피 손실을 통해 모델 능력을 예측할 수 있음을 확인할 수 있습니다.동시에, 시퀀스 수준의 자기 감독 목표만으로 학습하고 구조적 정보를 도입하지 않은 경우에도 모델은 교차 엔트로피 손실이 임계값으로 떨어진 후에도 여전히 비상 능력을 보이며 pLDDT와 TM 점수 간에 비선형적 전환을 보여줍니다.

다양한 지표에 따른 AMix-1 모델의 등장

맥락 내 학습: 단백질 설계를 위한 일반 패러다임

연구진은 컴퓨터 시뮬레이션 사례를 통해 AMix-1의 In-Context Learning 메커니즘을 검증했습니다. 시뮬레이션 사례 실험 결과AMix-1은 명시적인 레이블이나 구조적 감독에 의존하지 않고도 입력 샘플에서 구조적 또는 기능적 제약 조건을 정확하게 추출하고 일반화할 수 있습니다.

맥락 내 학습에서 LLM과 AMix-1의 비교

작업 유형에 따른 맞춤형 프로세스가 필요하고 통합된 단백질 설계 프레임워크가 부족한 기존의 단백질 설계와 달리, AMix-1은 대규모 언어 모델 내에 맥락 내 학습(ICL) 메커니즘을 도입하여 구조 및 기능 기반 단백질 설계를 수행합니다. 실험 결과, 구조적 작업에서 AMix-1은 기존의 상동 단백질 또는 사실상 상동성이 없는 단백질을 단서로 사용하여 예측 구조의 일관성이 매우 높은 새로운 단백질을 생성할 수 있음이 입증되었습니다. 기능적 작업에서 AMix-1은 입력 단백질의 효소 기능 및 화학 반응 기반 설계를 기반으로 일관성이 매우 높은 프로테아제를 생성할 수 있습니다.

이 일반적인 메커니즘에 따르면,이 모델은 주어진 단백질 그룹에서 공통적인 정보와 규칙을 자동으로 추론하고, 이러한 규칙을 사용하여 공통 규칙에 맞는 새로운 단백질을 생성합니다.이 메커니즘은 단백질 MSA 그룹을 위치 수준 확률 분포(프로파일) 입력으로 압축하여 모델에 제공합니다. 입력 단백질의 구조와 기능적 규칙을 빠르게 분석한 후, 모델은 의도에 맞는 새로운 단백질을 생성할 수 있습니다.

AMix-1 상황 내 학습 사례 검증

테스트 시간 확장: 확장 가능한 일반 인텔리전스

연구진은 테스트 시간 확장 접근법을 기반으로 Proposer-Verifier 프레임워크를 사용하여 EvoAMix-1을 구축했습니다. 검증 예산을 지속적으로 증가시킴으로써 AMix-1의 모델 성능을 향상시켰습니다. 모델의 설계 효율성을 높이는 동시에 확장성도 확보했습니다. 또한, 호환성을 보장하기 위해 검증 도구 속성에 대한 사전 정의된 요구 사항을 제거했습니다.

EvoAMix-1은 확률적 모델의 고유한 무작위성을 기반으로 탐색을 촉진합니다. 작업별 컴퓨터 시뮬레이션 보상 함수 또는 실험적 검출 피드백을 통합하여 진화적 제약 조건 하에서 후보 단백질 서열을 반복적으로 생성하고 스크리닝합니다. 모델 미세 조정 없이 효율적인 단백질 진화를 달성하여 단백질 설계에서 견고하고 테스트 시간 확장 가능한 성능을 구현합니다.6가지 설계 과제 모두에서 EvoAMix-1은 맥락 내 학습과 다양한 강력한 기준 방법 측면에서 AMix-1보다 지속적으로 우수한 성과를 보였습니다.

AMix-1 추론 단계의 진화적 확장 알고리즘의 워크플로

중요도 샘플링을 통한 새로운 단백질 변형을 생성하는 기존 방법과 비교했을 때,EvoAMix-1은 모델 매개변수를 업데이트하지 않고, 대신 맥락적 예제를 통해 제안 분포를 구축합니다.각 라운드에서 AMix-1은 다중 시퀀스 정렬(MSA) 세트 또는 해당 스펙트럼을 힌트로 사용합니다. 이는 단백질 기본 모델의 입력 조건으로 간주되며, 이후 이웃 시퀀스를 샘플링하여 효과적으로 새로운 조건부 제안 분포를 정의합니다.

연구팀은 효소의 최적 pH 및 온도 진화, 기능 보존 및 증진, 고아 단백질 설계, 그리고 일반적인 구조 기반 최적화를 포함한 여러 대표적인 단백질 지향 진화 과제에 걸쳐 EvoAMix-1의 다재다능성과 확장성을 체계적으로 검증했습니다. 실험 결과는 EvoAMix-1의 테스트 시간 확장성이 뛰어나며, 과제와 목표 전반에 걸쳐 뛰어난 다재다능성을 보여줍니다.

6가지 방향성 진화 벤치마크에서 EvoAMix-1의 테스트 시간 스케일링 성능

습식 실험 검증: AMix-1은 활성이 50배 증가하는 단백질 AmeR 변형체 개발을 지원합니다.

본 연구는 실제 습식 실험에서 "맥락 기반 설계" 전략을 검증하여, 고활성 AmeR 변이체를 효율적으로 설계하는 데 있어 AMix-1의 장점을 더욱 입증했습니다. 연구진은 표적 단백질 AmeR을 선택하고 AMix 모델을 사용하여 AmeR 계열의 확률 분포를 기반으로 40개의 변이체를 생성했습니다. 각 변이체의 저해 능력은 형광 리포터 유전자 실험을 통해 평가했습니다. 각 변이체는 아미노산 돌연변이가 10개 이하로 제한되었으며, 억제 배수 값이 높을수록 기능이 더 강력했습니다. 또한, 본 연구는 유도 단백질 진화에서 AMix-1의 적용성을 향상시키기 위한 진화적 검증을 위한 스케일링 알고리즘을 제안하고, 다양한 컴퓨터 시뮬레이션 표적 영역 지표를 통해 그 성능을 검증했습니다.

최종 결과는 다음과 같습니다.AMix-1이 생성한 최적 변형은 활동성이 최대 50배 향상되었으며, 현재 SOTA 모델과 비교했을 때 성능이 약 77% 향상되었습니다.또한 AMix-1은 반복적인 스크리닝이나 수동 설계에 의존하지 않고, 모델에 의해 완전히 자동으로 생성됩니다."모델에서 실험까지" 완전한 폐쇄 루프를 구현했으며 AI가 기능적 단백질 설계를 활용하는 데 있어 최초로 획기적인 진전을 이루었습니다.

습식 실험에서 AMix-1 모델의 생성 반복 및 해당 돌연변이 프로세스

글로벌 토폴로지, 인식은 단백질 설계에 새로운 차원을 열어줍니다

현재 AI와 단백질 설계의 통합 연구가 활발히 진행되고 있습니다. AMix-1 외에도 칭화대학교 생명과학대학 공 하이펑(Gong Haipeng) 연구팀과 베이징 생명과학연구소 쉬 춘푸(Xu Chunfu) 연구팀이 제안한 기하 인식 확산 모델인 TopoDiff 역시 단백질 설계 분야에서 상당한 혁신을 이루었습니다.

RFDiffusion과 같은 기존 확산 모델은 면역글로불린과 같은 특정 폴드 유형을 생성할 때 커버리지 편향이 발생할 뿐만 아니라, 단백질의 전역 토폴로지에 대한 정량적 평가 지표가 부족합니다. CATH 및 SCOPe와 같은 구조 데이터베이스를 기반으로 하는 본 연구는 TopoDiff 프레임워크라는 비지도 학습 시스템을 제안했습니다. 전역 기하학적 인식 잠재 표현을 학습하고 활용하여 확산 모델에 기반한 무조건적이고 제어 가능한 단백질 생성을 달성합니다. 본 연구는 2단계 인코더-확산 모델 프레임워크를 통해 단백질 구조를 전역 기하학적 청사진과 국소 원자 좌표 생성으로 분리하는 새로운 평가 지표인 "커버리지"를 제안하여 단백질 폴드 커버리지 연구의 어려움을 극복합니다.

또한, NVIDIA는 캐나다 퀘벡 인공지능 연구소(Mila)와 협력하여 AlphaFold 아키텍처 기반의 업그레이드된 전체 원자 생성 모델을 사용하여 장쇄 예측의 어려움을 극복했습니다. 기존 방식은 매우 긴 사슬(잔기 500개 이상)의 전체 원자 구조를 생성하는 데 어려움을 겪을 뿐만 아니라, 막 단백질 특이적 포켓과 같은 비고전적 접힘 구조를 탐색하는 데도 실패합니다. 연구팀은 확률론적 의사결정 메커니즘을 도입하여 결정론적 접힘 궤적을 양자장 이론의 경로 적분 샘플링으로 대체함으로써 막 단백질 설계의 성공률을 68%까지 높였습니다.

단백질 접힘을 기하학적으로 감지하는 것부터 500개 이상의 잔기로 구성된 긴 사슬 설계, 자연어 기반 단백질 설계, 그리고 "치료 불가능한(undruggable)" IDP 표적화에 이르기까지, AI는 단백질 설계 역량의 경계를 확장하고 이 분야 연구에 새로운 패러다임을 제시하고 있습니다. 앞으로 AI 기반 단백질 설계는 혁신적인 치료제, 효소, 생체재료 개발에 더욱 큰 가능성을 열어줄 것으로 기대됩니다.

참조 링크:

1.https://hub.baai.ac.cn/view/23883

2.https://www.webpronews.com/nvidia-ai-model-boosts-protein-prediction-to-800-residues-with-75-accuracy/

3.https://www.nature.com/articles/s42256-025-01059-x