Command Palette

Search for a command to run...

MIT 팀은 BoltzGen을 오픈 소스로 공개하여 다양한 분자 유형에 걸쳐 단백질 결합제를 설계하고 66% 타겟에 대한 나노몰 친화도를 달성했습니다.

Featured Image

신약 개발 및 생체분자 공학 분야에서 드노보(de-novo) 결합체 설계는 자동화된 신약 개발을 위한 핵심 방법입니다. 연구자들은 계산 시뮬레이션과 딥러닝을 활용하여 특정 표적에 결합할 수 있는 펩타이드 또는 단백질 구조를 생성하여 항체, 나노바디, 고리형 펩타이드와 같은 새로운 약물 개발에 활용할 수 있습니다.

그러나 기존의 단백질 설계 전략은 대부분 분자 동역학 시뮬레이션이나 서열 최적화 알고리즘과 같은 물리적 계산에 의존합니다. 단일 시스템에서 높은 정밀도를 달성할 수 있지만,그러나 계산 비용이 높고, 설계 공간이 제한적이며, 단백질, 소분자, RNA와 같은 다중 모드 표적을 동시에 처리하는 것이 어렵습니다.현재의 심층 생성 모델은 생성 속도가 어느 정도 향상되었지만, 일반적으로 "원자 수준"의 구조적 추론 능력이 부족하고 특정 분자 범주에 최적화되어 있어 다재다능함이 제한적입니다. 더욱이, 모델 평가는 종종 훈련 세트에 존재하는 유사한 복합체에 의존하기 때문에 "보이지 않는 대상"에 대한 일반화 능력을 검증하기 어렵습니다. 제어 가능한 생성 메커니즘과 유연한 구조적 제약 조건 표현이 부족하여 설계 효율성과 해석 가능성에 한계가 있습니다.

이 문제를 해결하려면MIT는 볼츠와 다른 기관들과 협력하여 구조 예측과 복잡한 설계를 통합한 "전원자 생성 모델"인 BoltzGen을 제안했습니다.이 모델은 기존의 개별 잔류물 라벨을 기하학적 연속 표현으로 대체하여 단일 시스템에서 단백질 접힘과 결합 설계의 공동 훈련을 달성할 뿐만 아니라, 분자 유형 전반에 걸쳐 제어 가능한 생성을 달성하기 위해 유연한 "설계 사양 언어"를 구축합니다.

실험 결과는 다음과 같습니다.BoltzGen의 나노바디와 단백질 접합체 설계는 모두 66%에 대한 나노몰 친화성을 달성하는 것을 목표로 합니다.처음으로, "단일 모델 시스템"이 다중 모드 생체 분자 설계에서 접힘과 결합 성능을 동시에 최적화할 수 있다는 것이 시연되었습니다.

현재 관련 연구 결과는 "BoltzGen: Toward Universal Binder Design"이라는 제목으로 출판되었습니다.

GitHub 주소:

https://github.com/HannesStark/boltzgen

연구 하이라이트:

* 단일 전체 원자 생성 모델에서 통합된 구조 예측 및 바인더 설계를 통해 원자 수준의 정밀도로 단백질 접힘, 결합 부위 모델링 및 시퀀스 생성을 동시에 수행할 수 있어 분자 설계의 물리적 합리성과 제어성이 크게 향상됩니다.
* 단백질, 나노항체, 고리형 펩타이드, 소분자 등 다양한 시스템 간에 유연하게 전환할 수 있는 범용 "설계 사양 언어"를 제안하여 교차 모달 구조 생성 및 제약 제어를 실현하고 생물 분자 설계 분야에서 생성 AI의 적용 범위를 확대합니다.

서류 주소:
https://go.hyper.ai/3sx2K

공식 계정을 팔로우하고 "BoltzGen"이라고 답글을 남겨 전체 PDF를 받아보세요.

더 많은 AI 프런티어 논문: 

https://hyper.ai/papers

혼합 데이터 세트: 다중 모드 훈련 전략

연구팀은 BoltzGen을 훈련할 때 다중 레벨, 교차 모달 관절 훈련 프레임워크를 채택했습니다.사용된 데이터 세트의 핵심 소스는 세 가지 범주로 구성됩니다.

* RNA, DNA, 단백질 소분자 등 다양한 복잡한 구조를 포괄하는 단백질 데이터 뱅크(PDB)의 고품질 실험 구조는 모델에 대한 현실적인 화학 결합 제약 조건과 3차원 기하학적 분포 데이터를 제공합니다.
* AlphaFold2가 예측하고 재학습한 AlphaFold Database(AFDB)의 실험 데이터는 실험을 통해 생성된 신뢰할 수 있는 폴딩 패턴을 포함합니다.
* 볼츠-1 모델이 생성한 복합 구조 샘플은 소분자 결합 및 RNA-DNA 상호작용과 같은 다중 모드 시나리오를 포괄하므로 다양한 생체 분자 유형에 걸쳐 모델의 일반화 능력을 향상시킬 수 있습니다.

모델이 특정 구조 유형에 지나치게 편향되는 것을 방지하기 위해 연구팀은 항체와 TCR에 대한 업샘플링된 데이터 세트를 제거하여 생성된 공간의 다양성을 유지했습니다. 또한, 모든 구조 샘플은 학습 과정에서 무작위로 자르고 멀티태스킹하여 모델이 각 학습 반복에서 폴딩 예측, 복잡한 설계, 구조 완성과 같은 작업을 무작위로 처리할 수 있도록 했습니다. 이러한 통합적이고 다기능적인 학습 프레임워크를 통해 모델은 원자 수준에서 구조를 생성하는 동시에 교차 모달 이해 기능을 보유할 수 있습니다.

모델 아키텍처: 잡음에서 구조로의 모든 원자 추론

이 모델은 AlphaFold3 및 Boltz-2 아키텍처의 주요 구성 요소를 그대로 유지하고 이를 기반으로 몇 가지 개선을 거쳐 더 많은 조건부 입력을 도입했습니다.

아래 그림에서 볼 수 있듯이 전체 모델은 두 가지 주요 부분으로 나뉩니다.더 큰 트렁크(백본 네트워크)와 확산 모듈(확산 모듈).트렁크 모듈은 조건부 제어를 위해 토큰 및 쌍별 표현을 생성하는 반면, 확산 모듈은 이러한 표현을 기반으로 3차원 구조를 생성합니다. 트렁크 모듈은 한 번만 실행되는 반면, 확산 모듈은 모든 원자의 3차원 좌표에 대한 잡음을 점진적으로 제거하기 위해 여러 번 반복 실행됩니다.

BoltzGen 모델 아키텍처 다이어그램

트렁크 단계는 볼츠-2의 트렁크 모듈과 유사하며 입력 단백질 구조와 타겟 정보를 분석하는 역할을 합니다. Trunk 모듈은 토큰화된 분자 구조를 처리합니다.주요 프레임워크는 PairFormer 아키텍처를 사용하며, Triangle Attention을 활용하여 원자 간의 공간 관계를 효율적으로 모델링합니다. 기하 잔류물 인코딩과 결합하여 연속 공간에서 잔류물 유형과 원자 좌표를 동시에 추론하여 개별 아미노산 라벨에 대한 의존성을 제거합니다. 이 메커니즘을 통해 모델은 데이터 기억에만 의존하지 않고 생성 시점에 구조의 물리적 법칙을 정확하게 이해할 수 있습니다.

확산 모듈 단계에서는이 모듈은 노이즈가 있는 3D 원자 좌표를 입력으로 받습니다.잡음 제거된 좌표를 예측합니다. 원자 및 토큰 수준에서 작동하는 표준 트랜스포머 아키텍처를 사용합니다. BoltzGen은 연속 공간 확산 모델을 사용하여 원자 좌표의 잡음을 점진적으로 제거합니다. 잡음 벡터를 예측하여 무작위 초기 상태를 안정적인 형태로 변환하고, 생성 과정에서 분자 에너지 표면의 제약 조건을 유지하여 물리적 충돌이나 구조적 붕괴를 방지합니다.

실험 결과: 26개 타겟에 대한 범용 설계 검증

실험 부분에서 BoltzGen 모델의 성능 검증은 단백질에서 펩타이드, 새로운 병원체에서 소분자 표적에 이르기까지 다양한 차원을 포괄하여 우수한 일반화와 제어성을 보여주었습니다.

이 팀은 8개의 독립적인 습식 실험실 검증 프로젝트에서 총 26개의 목표를 테스트했습니다.결과에는 나노바디, 단백질, 선형 및 고리형 펩타이드를 포함한 다양한 결합 유형이 포함되었습니다. BoltzGen은 보이지 않는 복잡한 표적에 대해서도 높은 성공률을 유지했습니다. 훈련 데이터와 완전히 다른 새로운 표적을 사용한 9건의 실험에서, 설계된 단백질과 나노바디는 모두 66% 표적에 나노몰(nM)의 고친화도로 결합했습니다. 이는 이 모델의 강력한 구조적 추론 능력과 교차 모달 설계 역량을 보여줍니다.

단백질 설계의 실험 결과

다양한 구조를 갖는 생리활성 펩타이드에 대한 실험에서,BoltzGen으로 설계된 단백질은 나노몰에서 마이크로몰(μM) 수준의 친화도로 다양한 유형의 펩타이드 분자에 결합하여 항균 또는 용혈 활성을 효과적으로 중화할 수 있습니다. 급성 골수성 백혈병과 관련된 무질서 단백질 NPM1의 경우, 이 모델에서 생성된 펩타이드는 살아있는 세포에서 핵소체 공동국재화를 보였으며, 이는 AI로 설계된 단백질이 자연적으로 무질서한 단백질에 결합할 수 있음을 뒷받침하는 최초의 생체 내 증거를 제공합니다.

NPM1의 무질서한 영역에 결합하는 펩타이드의 설계

세포 대사의 핵심 효소인 RagC와 RagA:RagC 다이머의 설계 역시 놀라운 결과를 가져왔습니다.29개 후보 펩타이드 중 7개가 RagC에 성공적으로 결합했으며, 가장 높은 친화도는 3.5μM에 달했습니다. 순환 이황화물 결합 펩타이드 설계 중 14개가 안정적인 결합을 보였습니다.

RagCGTPase의 특정 부위에 결합하는 펩타이드 설계

BoltzGen은 또한 생물학적으로 관심 있는 두 가지 소형 분자에 대한 교차 규모 설계 역량을 입증했습니다.생성된 단백질 결합제는 50~150 µM 범위에서 검출 가능한 결합 활성을 보였으며, 이는 이 모델이 전문가의 화학적 지도 없이도 소분자 인식을 달성할 수 있음을 보여줍니다. 또한, 박테리아 DNA 자이라제 GyrA를 표적으로 하는 항균 펩타이드 설계에서 19%를 초과하는 후보 서열은 박테리아 성장을 4배 이상 감소시켰으며, 일부 펩타이드는 숙주 세포를 직접 사멸시켰습니다.

소분자에 결합하는 단백질 설계

PD-L1, TNFα, PDGFR 등과 같은 알려진 결합 구조를 갖는 5가지 벤치마크 타겟 테스트에서,BoltzGen은 또한 높은 적중률을 달성했습니다. 나노몰 결합제가 80%의 표적에 나타났으며, 이는 해당 모델의 정확도가 현재 최고 모델과 동등하다는 것을 입증합니다.

단백질 결합제 테스트 결과
단백질 결합제 테스트 결과

전반적으로, 이 일련의 실험은 BoltzGen이 알려진 데이터 분포 내에서 고품질 결합 구조를 재현할 뿐만 아니라, 완전히 낯선 생물학적 시스템에서도 기능적 설계를 달성할 수 있음을 보여줍니다. BoltzGen의 통합된 모든 원자 생성 아키텍처는 "설계-예측-검증" 프로세스를 통합하여 미래의 신약 개발 및 생물 분자 공학을 위한 개방적이고 제어 가능하며 확장 가능한 AI 인프라를 제공합니다.

예측에서 생성까지 Boltz 시리즈는 AI 기반 분자 설계의 풍경을 재구성합니다.

2024년에MIT Jameel Clinic 연구팀은 볼츠-1 모델을 도입했습니다.전 세계 신약 설계 산업이 구조 예측에서 기능 생성으로 전환하는 가운데, AlphaFold 시리즈 모델이 단백질 접힘 계산의 선구자 역할을 했지만, AlphaFold3의 제한된 가용성은 업계가 실제 약물 시나리오에서 자유롭게 반복할 수 있는 능력을 제한합니다. Boltz-1은 이러한 맥락에서 탄생했습니다. 성능 면에서 AlphaFold3에 근접할 뿐만 아니라 완전한 오픈 소스이며 상업적으로 실행 가능하여 분자 구조 예측을 업계의 개방형 생태계로 끌어올립니다.

볼츠-1은 확산 모델과 변압기 아키텍처를 결합한 생성 시스템을 사용합니다.단백질, RNA, DNA 및 소분자 복합체의 구조를 원자 수준에서 예측할 수 있습니다. 유연한 조건부 인터페이스를 통해 특정 결합 부위 또는 분자 구조를 정밀하게 모델링하여 산업적 활용 범위를 크게 넓힙니다. 새로운 항체 설계 및 효소 공학 최적화부터 소분자 리간드 스크리닝까지, Boltz-1 프레임워크 내에서 엔드 투 엔드 예측을 달성하여 바이오컴퓨팅의 진입 장벽을 크게 낮출 수 있습니다.

2025년에는MIT Jameel Clinic 팀은 Boltz-1을 기반으로 Boltz-2 모델을 도입했습니다.이는 단백질 접힘 예측의 정확도를 새로운 최고치로 끌어올렸으며, "구조 생물학의 GPT-4"로 알려져 있습니다.

이전 모델에 비해 Boltz-2는 생성 정확도와 계산 효율성을 크게 향상시켰습니다. 또한 다중 모드 조건부 입력 기능을 도입하여 시퀀스 정보, 실험 데이터 및 화학적 특성을 통합하여 더욱 정교한 분자 설계를 가능하게 합니다. 전 세계 바이오 컴퓨팅 및 신약 개발 환경이 "풀 시나리오 생성"으로 전환됨에 따라, Boltz-2는 고가용성, 확장성 및 상업적으로 실행 가능한 도구에 대한 학계와 산업계의 수요를 더욱 충족합니다.

Boltz-2는 확산 모델과 Transformer 아키텍처의 하이브리드 발전 시스템을 계승하고 최적화했습니다.핵심 Trunk 모듈은 단백질이나 핵산 복합체의 다단계 표현을 한 번에 추출할 수 있습니다.확산 모듈은 이를 기반으로 구조를 생성하고 최적화합니다.

볼츠-2 구조도

유연한 조건부 인터페이스 덕분에 연구자들은 특정 결합 부위, 활성 포켓 또는 소분자 리간드의 출력 구조를 정밀하게 제어할 수 있으며, 이를 통해 신규 항체 설계, 효소 촉매 최적화, 약물 선도물질 스크리닝 등의 분야에서 이 모델의 적용 가능성이 크게 확대됩니다. Boltz-2의 오픈 소스 특성은 학계와 산업계 전반에 걸쳐 자유로운 반복을 보장하여 실제 약물 개발 시나리오에서 분자 생성 컴퓨팅의 적용을 가속화합니다.

오늘날 BoltzGen은 단백질, 나노항체, 고리형 펩타이드, 소분자 등 다양한 시스템 간에 유연하게 전환할 수 있는 범용 "설계 사양 언어"를 제안하여 교차 모달 구조 생성 및 제약 조건 제어를 달성하고, 생물 분자 설계 분야에서 생성 AI의 적용 범위를 더욱 확대했습니다.

MIT 팀은 BoltzGen을 오픈 소스로 공개하여 다양한 분자 유형에 걸쳐 단백질 결합제를 설계하고 66% 타겟에 대한 나노몰 친화도를 달성했습니다. | 뉴스 | HyperAI초신경