Command Palette
Search for a command to run...
ICLR 2026 | NVIDIA/옥스퍼드 대학교 외 연구진은 최첨단(SOTA) 성능을 갖춘 원자 수준의 단백질 결합체 생성 방법을 제안합니다.

계산생물학 분야에서,특정 표적에 정확하게 결합할 수 있는 단백질을 설계하는 것은 가장 중요하고 어려운 문제 중 하나입니다.이는 신약 개발, 생물 치료, 효소 공학 등의 핵심 분야와 직접적으로 관련될 뿐만 아니라, 복잡한 질병 치료 및 생물 제조 분야에서 인간의 효율성 한계를 결정짓는 요소이기도 합니다.
분자적 관점에서 볼 때, 단백질이 표적에 결합하는 것은 본질적으로 3차원 구조적 문제입니다.아미노산 구성, 공간적 구조 및 계면의 분자간 상호작용은 결합의 친화도와 특이성을 종합적으로 결정합니다.따라서 거의 모든 결합제 설계 방법은 궁극적으로 "구조"라는 핵심 변수로 회귀하며, 구조 분석 또는 예측을 통해 분자 구성을 안내합니다.
최근 몇 년 동안 머신러닝의 도입으로 이러한 패러다임이 재편되고 있습니다. 구조 예측 및 구조 생성 모델의 획기적인 발전으로 연구는 실험적 구조에 대한 높은 의존도에서 벗어나 "구조 분석"에서 "구조 생성"으로 전환되고 있으며, 이를 통해 바인더를 처음부터 설계하는 것이 가능해지고 연구 개발 비용과 시간을 크게 절감할 수 있게 되었습니다.
하지만 방법론적인 측면에서 볼 때, 현재의 AI 기반 바인더 디자인은 여전히 뚜렷한 차이를 보입니다.한 가지 유형은 RFDiffusion으로 대표되는 생성형 방법입니다.이 방법은 대규모 학습을 통해 후보 구조를 직접 생성하지만, 추론 단계에서 유연하게 조정할 수 있는 능력이 부족합니다.또 다른 유형은 BindCraft로 대표되는 환영 기법입니다.구조 예측기의 점수화를 통한 경사 최적화는 유연성을 제공하지만 생성적 사전 정보가 부족하여 완전히 새로운 구조 공간을 탐색하기 어렵습니다. 이러한 "생성과 최적화의 분리"는 자연어 처리 및 이미지 처리 분야에서 이미 확립된 "사전 학습된 모델 + 추론 시간 계산 확장"이라는 통합 패러다임과 대조됩니다.
이러한 맥락에서NVIDIA, 옥스퍼드 대학교, 퀘벡 인공지능 연구소 및 기타 기관의 공동 연구팀은 Proteina-Complexa(이하 Complexa) 프레임워크를 제안했습니다.이 접근 방식은 생성형 방식과 환영형 방식 사이의 간극을 메우는 것을 목표로 하며, 기본적인 생성 모델과 추론 시간 최적화 메커니즘을 단일 시스템 내에 통합합니다. 이는 테디머 사전 학습을 기반으로 합니다.Complexa는 추가적인 서열 재설계 단계 없이 최첨단 신규 결합제 설계를 가능하게 합니다.확산 모델의 테스트 시간 스케일링 기법을 이 프레임워크에 적용함으로써 생성과 최적화가 직접 통합되어 성능 면에서 기존의 착시 기반 방법보다 우수합니다.
"생성형 사전 학습 및 테스트 시간 컴퓨팅을 이용한 원자 수준 단백질 결합체 설계의 확장"이라는 제목의 관련 연구 결과가 ICLR 2026에 채택되었습니다.
연구 하이라이트:
* 본 연구에서는 La-Proteina를 바인더 설계까지 확장하고, Teddymer를 활용하며, 생성적 사전 정보를 통해 추론 시간 최적화를 가속화하는 Complexa를 제안합니다.
* 서열 재설계 없이 단백질 및 소분자 표적 및 효소 설계 벤치마크에서 최첨단 컴퓨터 시뮬레이션 성공률을 달성했습니다.

서류 주소:
https://openreview.net/forum?id=qmCpJtFZra
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "Complexa"라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.
데이터셋: "단일 단위 강화"에서 "복합 재구성"까지
결합체 생성 모델의 근본적인 한계는 데이터에 있습니다. 이상적으로는 모델 학습을 위해 방대한 양의 "결합제-표적 복합체" 데이터가 필요하지만, 현실적으로 이러한 유형의 데이터는 주로 실험적으로 분석된 단백질 데이터베이스(PDB)에서 얻을 수 있으며, PDB는 규모가 제한적이고 고품질 샘플은 더욱 부족합니다. 반면, 대규모 알파폴드 데이터베이스(AFDB)는 방대한 양의 단백질 구조를 제공하지만, 거의 대부분이 단량체 구조로 복합체 정보가 부족합니다."개별 구성 요소는 풍부하지만 복합 구성 요소는 부족한" 이러한 구조적 격차는 모델의 대규모 학습 능력을 직접적으로 제한합니다.
본 연구의 핵심적인 돌파구는 AFDB의 내부 구조에 대한 새로운 이해에서 비롯됩니다. AFDB에 있는 대부분의 단백질은 다중 도메인 단백질이며, 도메인 분할 도구인 TED는 이러한 단백질에 정밀한 주석을 제공합니다. 추가 분석 결과, 동일한 단백질 내의 서로 다른 도메인 간의 상호작용이 다중 가닥 복합체의 상호작용과 통계적으로 유사한 특성을 나타낸다는 사실이 밝혀졌습니다. 이러한 관찰은 중요한 전환점을 가져옵니다.단량체 구조는 그 자체로 "쓸모없는 데이터"가 아니라, 복잡한 구조에 대한 잠재적인 데이터 소스로 재해석될 수 있습니다.
이러한 통찰력을 바탕으로 본 연구는 "인공 다중체 구성" 방법을 제안한다.다중 도메인 단백질을 독립적인 도메인으로 분해하고 각각을 서로 다른 사슬로 취급함으로써 단량체 내부에 복합체와 유사한 구조를 구축할 수 있다.구체적인 과정은 AFDB50에서 시작하여 TED 주석이 있는 단백질을 선별하고, 이를 "유사 다중체"로 분할한 다음, 이량체를 추출하고 공간적 근접성을 기준으로 필터링하는 과정을 거치며, 완전한 주석이 있는 샘플만 유지합니다. 마지막으로, 중복을 제거하기 위한 클러스터링을 통해 약 350만 개의 이량체 클러스터를 얻습니다. 이 데이터셋은 Teddymer라고 명명되었으며, 그 핵심은 단순히 데이터 규모를 확장하는 것이 아니라 구조적 재구성을 통해 "단량체 우위"를 "복합체 공급"으로 전환하는 데 있습니다.
아래 그림에서 볼 수 있듯이, 훈련 과정에서 본 연구는 단일 데이터 소스에 의존하지 않고 AFDB 단량체 데이터, Teddymer 구성 데이터, PDB 실험 복합체 데이터, PLINDER 단백질-리간드 데이터를 통합하여 모델이 단량체 구조, 복합체 구조 및 소분자 상호작용 간의 통합된 표현을 구축할 수 있도록 함으로써 생성 능력과 일반화 능력을 모두 고려했습니다.

Complexa: 단백질 결합제 생성을 위한 완전 원자 프레임워크
모델 설계 측면에서 Complexa의 핵심적인 변화는 단순히 "더 강력한 생성 능력"에 그치는 것이 아니라, 생성 목표가 "완전한 단백질 구조"에서 "특정 인터페이스의 결합제"로 전환된 데 있습니다. La-Proteína를 기반으로 구축된 Complexa는 원자 전체 수준에서 구조를 생성할 수 있다는 장점을 가지고 있습니다.동시에 효율적인 트랜스포머 아키텍처를 기반으로 기존 구조 모델에서 계산 비용이 높은 모듈을 사용하지 않아 대규모 샘플링 시나리오에서 뛰어난 확장성을 제공합니다.
이를 바탕으로, 본 연구는 표적 지점과 인터페이스 핫스팟에 기반한 생성 메커니즘을 도입합니다. 이 메커니즘은 모델이 완전한 복합체를 생성하는 대신 결합체 부분만 생성하도록 하며, 생성 과정에서 표적 정보를 명시적으로 활용합니다. 구체적으로,흐름 일치 모델은 조건부 제약 조건 하에서 구조를 생성하는 역할을 하며, 오토인코더는 단량체 결합체의 인코딩 및 디코딩에만 사용되어 표현력을 유지하면서 모델링 복잡성을 줄입니다.
모델이 목표 정보를 효과적으로 이해할 수 있도록 입력 표현에 대한 체계적인 설계가 구현되었습니다. 단백질 목표물은 Atom37 방식을 사용하여 인코딩되었으며, 잔기 수준의 3D 좌표, 아미노산 유형 및 인터페이스 핫스팟 정보가 모델에 균일하게 입력되었습니다. 핫스팟은 잠재적인 결합 영역을 나타냅니다. 학습 과정에서는 이러한 핫스팟을 실제 인터페이스에서 추출했으며, 추론 과정에서는 사전 정보로 사용하거나 전처리를 통해 얻었습니다. 소분자 목표물의 경우, 모델은 유형, 전하 및 공간 좌표를 원자 수준으로 인코딩했으며, 이러한 정보는 결합제 표현과 함께 Transformer에 입력되어 공동 모델링에 사용되었습니다.
훈련 목표와 관련하여,핵심적인 개선 사항은 결합체 좌표에 무작위 전역 변환 노이즈를 도입하여 모델이 분자의 공간적 위치 파악 능력을 학습하도록 한 것입니다.이는 단량체 생성에는 중요하지 않지만, 결합체를 목표 인터페이스에 정확하게 배치해야 하는 작업에서는 생성 품질을 결정하는 핵심 기능입니다. 전체 학습 과정은 단계별 전략을 채택하여 단량체 모델링에서 일반 구조 생성, 그리고 결합체 특이적 학습으로 단계적으로 진행됩니다. 동시에 LoRA를 통해 과적합을 제어하고, 단량체 수준의 오토인코더를 전체 과정에서 재사용하여 아키텍처를 단순하게 유지합니다.
추론 단계에서는Complexa는 생성 프로세스와 검색 최적화를 결합하는 "테스트 시간 계산 확장" 메커니즘을 추가로 도입했습니다.샘플 수를 늘리거나, 번들 검색 또는 몬테카를로 트리 검색을 도입함으로써, 모델은 더 큰 계산 예산 내에서 지속적으로 생성 품질을 향상시킬 수 있습니다. 이러한 설계 덕분에 모델의 기능은 학습 단계에만 국한되지 않고 추론 단계에서도 동적으로 확장될 수 있습니다.

더 높은 성공률, 더 빠른 속도, 그리고 더 강력한 확장성
모델의 성능을 검증하기 위해 본 연구에서는 단순한 실험부터 복잡한 실험까지 다양한 실험을 설계했습니다. 핵심 질문은 Complexa가 기본적인 성능에서 우수할 뿐만 아니라 컴퓨팅 자원이 증가함에 따라 성능을 지속적으로 향상시키는가 하는 것입니다.
기본 발전 능력 측면에서 볼 때,단백질을 표적으로 하든 소분자를 표적으로 하든, Complexa는 기존 방법을 크게 능가하는 성능을 자랑하며, 더 높은 성공률과 더 빠른 샘플링 속도를 제공합니다.동시에 생성된 구조의 참신성이 크게 향상됩니다. 더욱 중요한 것은, 이 모델은 ProteinMPNN과 같은 2차 설계 도구에 의존하지 않고도 고품질 서열을 직접 출력할 수 있어 전체 과정을 간소화한다는 점입니다.

구조적 제어 가능성 측면에서 볼 때,본 연구는 조건부 레이블을 도입하여 모델이 생성되는 구조의 유형을 명시적으로 제어할 수 있도록 합니다.예를 들어, α-나선과 β-겹침 구조 중에서 선택하는 것은 기존 생성 모델의 단일 구조 문제를 효과적으로 완화하고 구조적 다양성을 크게 향상시킬 수 있습니다.
추론 단계에서 수행된 계산 확장 실험 결과에 따르면, 간단한 작업에서는 샘플 수를 늘리는 것만으로도 모든 기준 방법보다 우수한 성능을 보였으며, 복잡한 작업에서는 번들 검색 및 몬테카를로 트리 검색과 같은 고급 검색 전략을 도입하면 그 이점이 더욱 확대되는 것으로 나타났습니다.이는 계산 예산이 증가함에 따라 모델 성능이 지속적으로 향상될 수 있음을 나타냅니다.아래 그림과 같이

물리적 타당성과 관련하여, 계면 수소 결합 및 관련 에너지 지표를 최적화하기 위해서는 추가적인 연구가 필요합니다.이 모델은 구조적으로 견고한 결합제를 생성할 뿐만 아니라 미세한 상호작용 수준에서도 이를 최적화하는 것으로 나타났습니다.이는 접착 공정의 안정성을 향상시킵니다.
보다 까다로운 다중 체인 목표 작업에서 기존 방법은 제한된 계산 예산 내에서 효율적인 솔루션을 얻을 수 없습니다.Complexa는 컴퓨팅 리소스를 확장한 후 고품질 후보를 성공적으로 생성하여 복잡한 문제에서 확장성을 입증했습니다.마지막으로, 효소 설계와 같은 다양한 작업에 대한 테스트 결과는 아래 그림에 나와 있습니다. 이 프레임워크는 우수한 일반화 능력을 가지고 있으며, 결합제 설계에서 더 넓은 범위의 단백질 공학 문제로 확장될 수 있습니다.

인공지능 단백질 설계의 패러다임 전환
최근 몇 년 동안 인공지능 기반 단백질 결합제 설계는 이론에서 실제 적용으로 빠르게 발전해 왔으며, 노벨상 수상자인 데이비드 베이커와 그의 팀은 이 분야의 핵심 선두 주자로 남아 있습니다. 2025년에는 그들의 팀이 과학 저널인 Science에 여러 편의 연구 논문을 발표했습니다.이 시스템은 RFD 확산을 기반으로 고도로 특이적인 pMHC 결합제를 설계하는 것이 가능하다는 것을 검증했습니다.관련 연구는 11개 질병 범주를 대상으로 T 세포가 종양을 인식하도록 유도하는 결합 단백질을 성공적으로 생성했으며, 극저온 전자 현미경을 사용하여 원자 규모에서 설계 정확도를 검증함으로써 AI 설계의 검증 가능성에 대한 첫걸음을 내디뎠습니다.
한편, MIT 연구팀은 볼츠젠 모델에서 보다 통합적인 접근 방식을 탐구하여 구조 예측과 응집체 생성을 단일 전원자 모델로 통합하고 기존의 이산 모델링 대신 연속적인 기하학적 표현을 사용했습니다.26개의 표적을 대상으로 한 실험에서 66%는 결합체로서 나노몰 수준의 친화도를 달성했습니다.또한 분포 범위를 벗어난 목표에 대해서도 높은 성공률을 유지하며, 일정 수준의 일반화 능력을 보여줍니다.
업계는 이러한 역량의 엔지니어링 구현에 더욱 집중하고 있습니다. 2026년 초, 바이엘과 크래들은 AI 단백질 엔지니어링 플랫폼을 항체 개발 프로세스에 통합하기 위한 3년 협력 계약을 체결했습니다. 이 플랫폼은 50개 이상의 프로젝트에 적용되어 개발 주기를 크게 단축하고 "설계-테스트-학습"의 폐쇄 루프 반복 프로세스를 지원했습니다. 이는 AI가 연구 개발 프로세스 내에서 보조 도구에서 핵심 역량으로 전환되고 있음을 의미합니다.
전반적으로 단백질 설계 분야의 경쟁은 단일 모델 성능에서 시스템 수준의 효율성과 확장성으로 이동하고 있습니다. 학계는 모델 기능의 한계를 끊임없이 확장하고 있으며, 산업계는 이를 안정적이고 재사용 가능한 연구 개발 프로세스로 이끌고 있습니다. 따라서 AI 기반 단백질 설계는 더욱 실용적인 단계로 진입하고 있으며, 핵심은 더 이상 "설계가 가능한가"가 아니라 "지속적이고 효율적으로 설계할 수 있는가"입니다.
참조 링크:
1.https://news.bioon.com/article/00bf92186439.html
2.https://mp.weixin.qq.com/s/1zKXUQtXgCJ7GA1_OUEShg
3.https://www.bayer.com/en/us/news-stories/ai-enabled-antibody-discovery-and-optimization








