HyperAI초신경

NVIDIA, 원자 수준 단백질 설계에서 획기적인 성과 달성, 높은 정확도로 최대 800개 잔류물의 단백질 생성

特色图像

특정 구조와 기능을 가진 새로운 단백질을 설계하는 것은 약물 개발이나 생명공학 등 여러 분야에서 큰 응용 잠재력을 가지고 있다는 것은 잘 알려진 사실입니다. 그러나 이러한 목표를 달성하는 것은 쉽지 않으며, 특히 단백질 서열과 구조 간의 관계를 파악하는 것은 단백질을 처음부터 설계하는 데 있어 항상 큰 난제였습니다.

과거에는 대부분의 방법에서 단백질 서열과 구조를 별도로 설계하는 경향이 있었습니다.예를 들어, 먼저 서열을 생성한 후 접거나, 먼저 백본을 설계한 후 서열을 결정하는 방식입니다. 그러나 단백질 서열과 모든 원자 구조의 결합 분포를 정확하게 모델링하여 기능 부위를 정밀하게 제어하고 원자 모티프 스캐폴드 설계와 같은 핵심 단백질 설계 작업을 완료하는 것은 여전히 매우 어려운 문제입니다. 이를 위해서는 불연속 서열과 연속 좌표뿐만 아니라, 서열에 따라 변하는 측쇄 크기 문제도 해결해야 합니다.

이러한 맥락에서,NVIDIA의 연구팀과 캐나다의 퀘벡 인공지능 연구소인 Mila가 La-Proteina를 제안했습니다.이는 부분 전위 흐름 매칭에 기반한 원자 수준 단백질 설계 방법입니다. 명시적 백본 모델링과 각 잔기의 고정 크기 전위 표현을 효과적으로 결합하여 서열 및 원자 측쇄 정보를 포착함으로써, 단백질 생성 시 명시적 측쇄 표현의 차원 가변성이라는 핵심 과제를 해결하고 단백질 설계 분야에 새로운 돌파구를 제시합니다.

관련 연구 결과는 "La-Proteina: 부분적 잠재 흐름 매칭을 통한 원자적 단백질 생성"이라는 제목으로 arXiv에 게재되었습니다.

연구 하이라이트:

* 단백질 서열과 완전한 원자 수준 구조의 공동 생성을 위해 설계된 부분 암묵적 흐름 매칭 프레임워크인 La-Proteina가 제안되었습니다. 이 프레임워크는 명시적 주쇄 모델링과 각 잔기의 고정 크기 암묵적 표현을 효과적으로 결합하여 서열 및 원자 수준 측쇄를 모두 포착합니다.

* 광범위한 벤치마크 실험에서 La-Proteina는 무조건 단백질 생성에서 SOTA 성능을 달성하여 최대 800개 잔류물의 다양하고 공동 설계 가능하며 구조적으로 유효한 완전 원자 규모 단백질을 생성할 수 있습니다.

* 이 연구에서는 La-Proteina를 두 가지 중요한 조건부 단백질 설계 과제인 색인화된 원자 수준 모티프 스캐폴드 설계와 색인화되지 않은 원자 수준 모티프 스캐폴드 설계에 성공적으로 적용했으며, 두 가지 모두 이 모델이 이전의 모든 원자 생성기보다 우수함을 보여주었습니다.

서류 주소:

https://go.hyper.ai/3csT5

더 많은 AI 프런티어 논문:
https://go.hyper.ai/owxf6

데이터 세트: 무조건 모델과 단백질 데이터 기능 및 함수를 학습하는 데 사용됩니다.

이 연구에서는 무조건 모델을 훈련하기 위해 2개의 데이터 세트를 사용했습니다.

하나는 AlphaFold 데이터베이스(AFDB)의 스크리닝 및 클러스터링을 통해 파생된 Foldseek가 클러스터링한 AFDB 데이터 세트입니다.클러스터링은 서열 및 구조 정보를 결합하며, 약 300만 개의 고유 샘플로 구성된 초기 세트를 기반으로 합니다. 이 샘플들은 여러 기준을 사용하여 최적화되었습니다. 평균 pLDDT 점수는 80 이상, 단백질 길이는 32~512개, 코일링 비율은 50% 미만, 연속 코일링 잔기는 20개 이하입니다. 모델에서 생성된 단백질의 낮은 β-폴드 함량을 보정하기 위해 β-폴드의 존재가 특별히 필요했습니다.마지막으로 약 55만개의 단백질 샘플이 얻어졌습니다.이 데이터 세트는 모델에서 생성된 단백질의 구조적 특징을 더욱 균형 있게 만들기 위해 신중하게 검토되었으며, 특히 β-폴드 함량을 개선했습니다.

두 번째는 긴 시퀀스 학습을 위한 맞춤형 AFDB 하위 집합입니다.연구진은 AFDB에서 평균 pLDDT가 최소 70이고 길이가 384~896인 샘플을 선별했습니다.클러스터링 후, 400만 개 이상의 클러스터가 훈련을 위해 얻어졌습니다.더 긴 단백질 샘플에 초점을 맞추어 긴 시퀀스 학습의 요구를 충족합니다.

또한, 단백질 데이터 자체에는 서열(20가지 잔기 유형)과 3차원 구조 정보가 포함되어 있으며, 이는 Atom37 표현 방식을 통해 균일하게 저장됩니다. Atom37 표현 방식은 각 잔기에 대해 37개의 잠재적 원자로 구성된 표준화된 상위 집합을 정의합니다. L개의 잔기로 구성된 단백질 구조는 [L, 37, 3] 형태의 텐서로 저장될 수 있으며, 각 잔기의 유형에 따라 관련 좌표 하위 집합이 선택됩니다.

이 표준화 방법의 특징은 다양한 잔류물의 구조 정보에 대한 통합된 저장 및 표현 방식을 제공하여 모델이 다양한 잔류물의 구조 정보를 균일하게 처리할 수 있는 기반을 마련한다는 것입니다. AFDB의 대규모 데이터 특성은 모델에 풍부한 샘플을 제공하여 더 광범위한 단백질 서열과 구조적 특징을 학습하고 성능과 일반화 기능을 향상시키는 데 도움이 됩니다. 이러한 데이터를 활용한 학습 및 실험을 통해 관련 모델은 단백질 서열과 구조 간의 관계를 더 정확하게 파악하고 더욱 정밀한 설계를 달성할 수 있습니다.

La-Proteina: 원자 수준 단백질 설계 모델의 혁신적인 아키텍처 및 훈련 메커니즘

La-Proteina는 원자 수준의 단백질 설계를 위한 혁신적인 모델입니다. 핵심 설계는 "부분적 암묵적 표현"을 중심으로 하며, 완전한 원자 수준의 구조를 생성하는 데 있어 발생하는 복잡한 문제들을 해결하는 것을 목표로 합니다.

설계 수준에서 대규모 백본, 아미노산 유형 및 측쇄(측쇄 크기는 아미노산에 따라 다름)를 고려하면서 모든 원자 구조를 생성하는 과제를 고려합니다.La-Proteina는 α-탄소 좌표를 통해 명시적인 백본 모델링을 유지하면서 각 잔류물의 원자 수준 세부 정보와 잔류물 유형을 고정 길이의 연속적인 잠재 공간으로 인코딩하는 것을 제안합니다.

이 설계는 여러 가지 장점을 제공합니다. 모델의 주요 생성 구성 요소에서 혼합 연속 분류 모델링의 어려움을 피할 뿐만 아니라, 완전한 연속 흐름 매칭 방법을 통해 숨겨진 변수를 효율적으로 생성할 수 있습니다. 또한 고성능 메인 체인 모델링의 발전에 기반할 수 있습니다. 명시적 메인 체인 모델링은 전역 α-탄소 백본 및 잔류물 원자 수준 세부 정보에 대해 다양한 생성 일정을 설정할 수 있도록 합니다. 이는 고성능의 핵심 요소이며, 확장성도 향상되어 최대 800개 잔류물의 대형 단백질까지 모델을 확장할 수 있습니다. 이러한 하이브리드 접근 방식은 완전 암묵적 모델링 프레임워크보다 우수한 핵심 요소입니다.

아래 그림과 같이 구성 구조를 보면,La-Proteina의 핵심은 인코더, 디코더, 디노이저라는 세 개의 신경망으로 구성됩니다.세 가지 모두 편향된 주의 메커니즘을 기반으로 하는 핵심적인 Transformer 아키텍처를 공유합니다.

그중 인코더는 입력 단백질(서열 및 구조 정보 포함)을 잠재 변수에 매핑하는 역할을 합니다. 초기 서열 표현은 원래 원자 좌표, 측쇄 및 백본 비틀림 각도, 그리고 잔류물 유형을 포함하며, 초기 쌍 표현은 상대적인 서열 분리, 쌍별 거리, 그리고 잔류물 간의 상대적인 방향을 포함합니다. 디코더는 잠재 변수와 α-탄소 원자 좌표로부터 완전한 단백질을 재구성하고, 각 잔류물에 대한 8차원 잠재 변수와 α-탄소 원자 좌표를 처리합니다. 디노이저 네트워크는 표준 가우시안 참조 분포에서 목표 데이터 분포로 샘플을 전송하는 속도장을 예측하고, 변환기 블록에서 보간 시간을 직접 조절합니다.

라프로테이나의 구성

훈련방법 측면에서는,라프로테이나에서는 2단계 훈련 전략을 사용합니다.

첫 번째 단계는 조건부 변이 자동 인코더(VAE)를 학습합니다. 인코더는 입력 단백질을 잠재 변수에 매핑하고, 디코더는 잠재 변수와 α-탄소 원자 좌표를 기반으로 단백질을 재구성합니다. 전체 VAE는 β-가중 증거 하한(ELBO)을 최대화하여 최적화됩니다. 위의 모델링 선택에 대해, 재구성 항은 시퀀스의 교차 엔트로피 손실과 구조의 제곱 L2 손실로 단순화될 수 있습니다.

두 번째 단계에서는 목표 분포를 근사하도록 흐름 매칭 모델을 최적화합니다. 잡음 제거 네트워크는 조건부 흐름 매칭(CFM) 목표를 최소화하여 학습합니다. 이 단계의 핵심 설계는 두 개의 개별 보간 시간 tx와 tz를 사용하는 것입니다. 이 설정은 추론 과정에서 α-탄소 원자 좌표와 잠재 변수에 대해 서로 다른 적분 스케줄을 가능하게 하여 모델 성능을 효과적으로 향상시킵니다.

이러한 설계와 교육을 통해 La-Proteina는 단백질 서열과 모든 원자 구조의 공동 분포를 효율적으로 학습하여 원자 수준의 단백질 설계에 대한 강력한 기술 지원을 제공합니다.

실험 결과: La-Proteina는 4가지 테스트 모두에서 큰 차이로 앞서 나갑니다.

연구팀은 La-Proteina의 성능을 검증하기 위해 무조건 원자 수준 단백질 생성과 원자 모티프 스캐폴드 설계라는 두 가지 주요 방향을 중심으로 일련의 실험을 수행했으며, 다양한 시나리오에서 모델의 성능을 종합적으로 고려했습니다.

무조건 원자 규모 단백질 생산 실험에서,아래 그림에서 볼 수 있듯이, 연구팀은 La-Proteina의 두 가지 변형(삼각형 증식층 유무)을 P(all-atom), APM, PLAID 등 공개적으로 이용 가능한 여러 가지 전원자 생성 기준 방법과 비교했습니다. 평가 지표는 전원자 협업 설계 역량, 다양성, 신규성, 그리고 표준 설계 역량을 포함했습니다.

연구 결과에 따르면 La-Proteina의 두 가지 변형은 모든 원자 공동 설계 능력, 설계 용량 및 다양성 측면에서 모든 기준 방법보다 성능이 뛰어나며, 참신성 측면에서도 매우 경쟁력이 있는 것으로 나타났습니다.


La-Proteina의 무조건적인 긴 사슬 생성 능력

삼각 곱셈 계층을 사용하지 않는 La-Proteina는 높은 확장성을 갖추면서도 최첨단 성능을 달성하는 반면, 두 번째로 성능이 좋은 P(all-atom)는 계산 비용이 많이 드는 삼각 업데이트 계층에 의존하기 때문에 짧은 단백질만 처리할 수 있다는 점이 주목할 만합니다.

또한,연구팀은 또한 La-Proteina가 대형 원자 구조를 생성하는 데 있어 확장성이 있다는 것을 보여주었습니다.약 4,600만 개의 샘플이 포함된 AFDB 데이터 세트로 학습된 이 모델은 500개 이상의 잔류물 길이를 가진 단백질을 생성하는 작업에서 가장 좋은 성능을 보이는 반면, 다른 모든 원자 기준선 방법은 이 길이 범위에서 효과적인 샘플을 생성하는 데 어려움을 겪는 경우가 많습니다.

생물물리학적 분석에서는 MolProbity 도구를 사용하여 구성타당성을 평가했습니다.연구 결과, La-Proteina가 생성한 구조의 품질이 더 높은 것으로 나타났습니다.점수는 모든 기준 방법보다 상당히 우수하며 생성된 구조는 물리적 수준에서 더욱 현실적이고 실제 단백질과 더욱 유사합니다. 동시에 측쇄 이면각 분포를 시각화하고 이를 PDB 및 AFDB 참조와 비교함으로써 다음이 발견되었습니다.La-Proteina는 아미노산 회전 이성질체의 구조 공간을 정확하게 시뮬레이션할 수 있습니다.기준선 방법은 종종 참조에서 벗어나 패턴이 누락되거나 비현실적인 각도 영역을 채웁니다.


La-Proteina는 기존의 All-atom 세대 베이스라인보다 더 뛰어납니다.
구성타당도가 더 높습니다

원자 모티프 스캐폴드 디자인 실험에서,연구팀은 미리 정의된 모티프의 원자 구조를 기반으로 모티프를 정확하게 지지할 수 있는 단백질 구조를 생성하는 원자 모티프 스캐폴드 설계 과제에서 모델의 성능을 평가했습니다. 실험은 전체 원자 스캐폴드 설계, 고급 원자 스캐폴드 설계, 색인화 및 비색인화 버전 등 네 가지 평가 환경에서 수행되었습니다.

결과는 네 가지 설정 모두에서 다음과 같은 결과를 보여줍니다.La-Proteina는 유일하게 비교 가능한 모든 원자 기준선 방법인 Protpardelle보다 성능이 훨씬 뛰어나며 대부분의 벤치마크 작업을 성공적으로 해결할 수 있습니다.특히 3개 이상의 서로 다른 잔류물 세그먼트로 구성된 모티프의 경우, La-Proteina의 비인덱싱 버전이 인덱싱 버전보다 성능이 더 좋습니다. 아마도 여러 세그먼트의 위치를 고정하면 다양한 구조적 솔루션을 탐색할 수 있는 모델의 유연성이 제한되기 때문일 것입니다.

원자 수준 단백질 설계 분야의 과학적 혁신과 혁신적 관행

단백질 설계 분야에서 La-Proteina가 대표하는 원자 수준 단백질 설계 연구 방향은 학계와 재계의 폭넓은 관심을 불러일으켰습니다. 많은 대학과 기업들이 이 분야에서 중요한 과학적 돌파구와 혁신적인 연구 성과를 달성했습니다.

학계에서는 일부 연구팀이 단백질 생성 모델의 성능과 확장성을 개선하기 위해 노력하고 있습니다. 예를 들어, NVIDIA는 Mila, 퀘벡 인공지능 연구소, 몬트리올 대학교, 그리고 MIT와 협력하여개발된 Proteina는 대규모 AlphaFold 데이터베이스(AFDB)에서 학습되었습니다.단백질 구조 생성을 위한 흐름 기반 모델의 확장성을 입증했습니다.

단백질 설계에 확산 모델을 사용하는 연구도 있습니다. 예를 들어, RFDiffusion과 Chroma와 같은 초기 확산 기반 단백질 생성기는 백본 생성에 중점을 둡니다. 이후 연구들은 SO(3) 매니폴드에서의 확산 및 유클리드 유동 매칭 방법과 같이 단백질 설계에서 확산 모델의 적용 범위를 더욱 확장했습니다.

일부 연구팀은 단백질 서열과 구조의 공동 모델링에도 집중합니다. 예를 들어, NVIDIA와 MIT에서 개발한 ProtComposer는 보조 통계 모델과 3D 기본 모델을 사용하여 단백질 구조를 생성하는 반면, 일부 연구에서는 단백질 골격과 서열을 공동으로 모델링하거나 잠재 변수 모델을 사용하여 전체 원자 구조를 다룹니다. 또한, 언어 모델 또한 단백질 설계에 적용되어 왔는데, 어떤 방법은 단백질 서열에 초점을 맞추고, 다른 방법은 구조 정보를 토큰화하고 서열과 구조를 공동으로 모델링합니다.

비즈니스 분야에서는 네덜란드 생명공학 기업인 크래들(Cradle)이 인공지능을 활용하여 단백질 설계 프로세스를 간소화하는 데 주력하고 있습니다. 크래들은 수십억 개의 단백질 서열과 데이터를 축적하여 독자적인 생성 인공지능 모델을 학습시키는 습식 실험실(wet lab)을 설립하여 단백질 설계 및 최적화를 더욱 편리하게 만들었습니다. 미국의 AI 제약 서비스 제공업체인 자이라 테라퓨틱스(Xaira Therapeutics)는 첨단 머신 러닝 연구, 대규모 데이터 생성, 그리고 치료제 개발에 강점을 활용하여 특정 적응증에 맞는 적응형 분자를 개발하는 데 전념하고 있습니다. 일부 기업들은 단백질 설계의 효율성과 정확성을 향상시키기 위해 단백질 설계 기술과 인공지능 및 머신 러닝을 결합하는 데에도 힘쓰고 있습니다.

이러한 대학들의 과학 연구 성과와 기업의 혁신적인 실천은 단백질 설계 개발에 풍부한 경험과 기술 지원을 제공했으며, 이 분야의 지속적인 발전을 촉진했습니다. 기술의 지속적인 발전과 함께 단백질 설계는 앞으로 더 많은 분야에서 중요한 역할을 할 것으로 기대됩니다.

참고문헌:
1.https://mp.weixin.qq.com/s/7r69S3XpNMjemo3EiXzNeQ
2.https://mp.weixin.qq.com/s/DrZEdsb1SqSSkv_hbrp3TA