ICML 2025에 선정된 청화대학교/중국인민대학교/ByteDance는 다양한 유형의 약물 분자 설계를 달성하기 위해 최초의 교차 분자 통합 생성 프레임워크 UniMoMo를 제안했습니다.

청화대학교의 류양 교수가 이끄는 그룹, 중국 인민대학교 가오링 인공지능학원의 황원빙 교수가 이끄는 그룹, 그리고 ByteDance AI 제약 연구팀은 공동으로 분자 종 전반에 걸친 통합 생성 프레임워크인 UniMoMo를 제안했습니다.이 프레임워크는 분자 조각(블록)을 기반으로 다양한 유형의 분자를 균일하게 표현하고, 변형 자동 인코더를 사용하여 각 블록의 전체 원자 형태를 압축하고, 압축된 잠재 공간에서 기하학적 확산 모델링을 수행하여 동일한 대상에 대한 다양한 유형의 결합 분자(소분자, 펩타이드, 항체)를 설계합니다. UniMoMo는 다양한 분자 작업 벤치마크에서 선도적인 성과를 달성하여 교차 모달 지식 전달 및 데이터 공유의 엄청난 잠재력을 보여주었습니다.

관련 결과는 "UniMoMo: De Novo 바인더 설계를 위한 3D 분자의 통합 생성 모델링"이라는 제목으로 ICML 2025에 선정되었습니다.
서류 주소:
오픈소스 프로젝트 주소:
https://github.com/kxz18/UniMoMo
통합 모델링이 필요한 이유는?
다양한 분자 유형은 약물 개발에 있어서 각자의 장단점을 가지고 있으므로, 종종 다양한 질병 시나리오에 가장 적합한 분자 유형을 선택하는 것이 필요합니다. 예를 들어:
* 소분자는 크기가 작아 경구로 섭취하기 쉽고 침투력이 강해 세포 내로 침투하여 표적에 작용하기에 적합합니다. 만성질환과 대사질환에 널리 사용됩니다.
* 펩타이드 분자는 높은 표적화 특성을 가지고 있으며 단백질 표면의 넓고 평평한 영역에 결합할 수 있습니다. 이러한 약물은 약물 투여가 어려운 단백질 상호작용 부위를 표적으로 삼는 데 적합하며 암, 염증 등의 치료에 자주 사용됩니다.
* 항체는 선택성과 친화성이 매우 높아 특정 단백질 마커를 안정적으로 식별할 수 있으므로 면역 요법과 같은 정밀한 개입 시나리오에 특히 적합합니다.
따라서 질병 메커니즘, 표적 특성, 약물 요구 사항이 다르므로 사용에 적합한 분자 유형도 다릅니다. 기존의 생성적 방법은 일반적으로 특정 종류의 분자(예: 소형 분자, 펩타이드 또는 항체)만 모델링합니다.다양한 치료적 요구를 충족시킬 수도 없고, 서로 다른 분자 간의 공통점을 활용해 모델 성능을 개선할 수도 없습니다.
응용 프로그램 관점에서 통합 모델링을 사용하면 동일한 타겟에 대해 여러 유형의 약물 후보를 동시에 탐색하여 다양한 다운스트림 시나리오에 대한 더 많은 옵션을 제공할 수 있습니다.
머신 러닝의 관점에서 보면, 서로 다른 유형의 분자는 유사한 결합 규칙(수소 결합, π-π 스태킹, 염다리 등)과 기하학적 제약(결합 길이, 결합 각도 등)을 공유하며 서로로부터 학습할 수 있습니다.따라서 통합 모델링은 더 큰 규모의 데이터를 활용하여 모델의 일반화 및 교차 전달 기능을 개선할 수 있어야 합니다.

생성적 통합 모델링의 어려움
다양한 유형의 분자를 균일하게 생성한다는 아이디어는 흥미롭지만, 그러한 프레임워크를 실현하는 데는 여전히 큰 과제가 있습니다. 주로 분자 표현의 선택과 생성 알고리즘의 설계에 어려움이 있습니다.
첫째, 다양한 분자 유형의 구조적 표현에는 큰 차이가 있습니다. 작은 분자는 다양한 기능 그룹으로 구성되며 그 구조는 매우 다양하고 비선형적입니다. 펩타이드와 항체는 아미노산이 선형적으로 연결된 구조이며, 특히 항체는 기능적 영역 구분이 뚜렷합니다. 직관적이지만 좋지 않은 접근 방식은 모든 분자를 원자의 그래프로 모델링하는 것입니다.그러나 이러한 접근 방식은 벤젠 고리나 표준 아미노산과 같은 핵심적인 하위 구조 등 분자의 자연스러운 계층적 구조를 무시하며, 항체와 같이 결합 표면이 큰 시스템을 다룰 때 엄청나게 높은 계산 비용을 초래합니다.
반대로, 공통 구조적 단편 어휘만 사용하여 단편 수준 그래프를 구성하는 경우(예: 대부분의 단백질 설계 작업에서는 C만 고려)알파 동등 어구),원자 수준의 세부 사항을 무시하면 분자 생성의 휴대성과 정확성이 저하됩니다.결합 분자 설계의 필수 법칙은 표적과의 공간적 상호작용과 분자 내의 기하학적 제약이기 때문에, 이러한 법칙은 원자 수준에서 정의되는 물리적 법칙이며 정확한 모든 원자 정보 지원이 필요합니다.
따라서 실제로 효과적이고 효율적인 통합 분자 표현을 구축하려면 두 가지 과제를 동시에 해결해야 합니다.구조적 계층적 사전 지식을 추상화하는 동시에 원자 수준에서 기하학적 세부 사항을 유지하는 것이 필요합니다.
둘째, 계층적 사전을 보존하기 위해 생성에 구조적 단편을 도입하면 생성 알고리즘에 핵심적인 문제가 발생합니다.기존의 확산 모델은 일반적으로 고정 길이, 고정 구조의 데이터 표현에 의존합니다.예를 들어 고정된 수의 점군이나 원자. AF3와 같은 구조 예측 모델의 경우, 2차원 토폴로지가 미리 주어지기 때문에 확산 과정은 원자 수나 2차원 구조에 변화를 일으키지 않습니다. 분자 생성 작업의 경우 2차원 토폴로지와 3차원 구조를 동시에 생성해야 합니다. 잡음 제거 과정에서 구조적 조각의 유형이 바뀌면 그에 따라 원자의 수, 유형 및 배열도 바뀝니다. 이는 기존 확산 모델의 가정을 깨뜨리고 모델링에 엄청난 부담을 줍니다.
UniMoMo: 통합 생성 모델
다양한 분자 유형의 큰 구조적 차이와 높은 모델링 난이도 문제를 해결하기 위해 본 논문에서는 UniMoMo라는 새로운 프레임워크를 제안합니다.이는 구조적 계층과 원자 수준의 정밀도를 효과적으로 고려하여 두 가지 핵심 설계로 시작됩니다.
* 통합 대표:모든 분자 유형은 블록 형태로 모델링됩니다.
UniMoMo는 작은 분자, 펩타이드 또는 항체인지에 관계없이 분자 조각(블록)으로 구성된 그래프로 구조를 표현합니다. 각 블록은 표준 아미노산이거나 일반적인 소형 분자 조각(예: 벤젠 고리, 인돌 등)일 수 있습니다. 본 논문의 구현에서 기록된 분자 단편에는 모든 표준 아미노산과 주요 서브그래프 마이닝 알고리즘에 의해 자동으로 식별된 소분자 단편이 포함됩니다. 모든 비자연적 아미노산은 소분자로 분류될 수 있습니다.이러한 표현은 분자의 원자 수준의 세부 사항과 다양한 유형의 분자 자체의 계층적 구조를 모두 보존하므로 통합된 모델링이 가능합니다.
* 모든 원자 기하학적 암묵적 공간 확산 모델:압축된 표현에 대한 효율적인 생성.
생성과정 중 블록 유형의 변화에 의해 발생하는 원자의 종류 및 양의 동기적 변화 문제를 해결하고, 생성효율 및 구조적 정확도를 향상시키기 위하여,본 논문에서는 모든 원자적 반복 변형 자동 인코더(IterVAE)를 설계합니다.각 블록의 모든 원자는 고정 길이의 잠재 공간 표현 벡터와 해당 잠재 공간 좌표를 포함하여 잠재 공간의 "지점"으로 압축됩니다.
그런 다음 모델은 압축된 기하학적 잠재 공간에서 생성 모델링을 수행하여 새로운 분자의 잠재 표현을 생성하고, 이를 최종적으로 전체 원자 구조로 디코딩합니다.잠재 공간의 데이터 표현은 고정 길이(블록의 개수가 미리 주어짐)이고 연속적이므로 다양한 기존 생성 알고리즘과 쉽게 호환될 수 있습니다.최근 시도에서는 확산 모델이 비교적 좋은 결과를 낼 수 있었습니다. 이 설계를 통해 모델은 생성 프로세스 동안 블록 간의 글로벌 레이아웃에 집중할 수 있으며, 세부적인 원자 수준 구조는 디코더에서 완성되므로 높은 효율성과 원자 수준 정확도의 통일성을 달성할 수 있습니다.

통합 모델링은 단일 도메인 모델링을 넘어섭니다.
다양한 유형의 분자에 대한 UniMoMo의 다재다능성과 효과성을 검증하기 위해 저자는 여러 구조 기반 설계 작업에서 체계적인 평가를 수행했습니다.여기에는 소분자, 펩타이드, 항체라는 세 가지 대표적인 결합 분자 유형이 포함됩니다.본 실험은 해당 분야에서 가장 대표적인 단일 분자형 생성 모델과 비교하여, 특히 공간 구조 합리성, 결합 능력 등의 핵심 지표 측면에서 통합 모델링이 더 강력한 기하학적 모델링 능력과 교차 모달 일반화 능력을 가지고 있는지 알아보고자 한다.
결과는 다음과 같습니다균일하게 훈련된 유니모모는 모든 분자 유형에서 포괄적인 우위를 달성했습니다.구조적 복원 정확도가 뛰어날 뿐만 아니라, 주요 기하학적 합리성과 대상과의 상호 작용 품질도 크게 개선되었습니다.

펩타이드 생성 작업에서,UniMoMo는 여러 핵심 지표에서 기존의 도메인별 모델보다 훨씬 우수한 성과를 보였습니다.RFDiffusion, PepFlow, PepGLAD 등을 포함합니다. 특히 구조적 정확도 측면에서 UniMoMo는 복합체와 단량체의 RMSD가 더 낮았는데, 이는 생성된 펩타이드 구조가 실제 결합 형태에 더 가깝다는 것을 나타냅니다.
UniMoMo는 또한 로제타 결합 에너지가 낮은 구조를 생성할 수 있습니다.이는 단백질 결합 부위의 기하학적 특징에 대한 더 강력한 모델링 능력을 반영합니다.또한 UniMoMo는 펩타이드 형태의 품질을 측정하는 이면각 분포의 일관성(백본/사이드체인 비틀림의 JSD) 및 원자 수준의 공간 충돌(충돌률)과 같은 기하학적 합리성 지표에서도 선도적인 성과를 보였습니다. 또한, 모든 데이터를 사용하여 학습한 UniMoMo(all)은 다양한 지표에서 펩타이드 데이터만을 사용하여 학습한 모델보다 지속적으로 우수한 성능을 보였습니다.UniMoMo가 분자 종 전반에 걸쳐 학습하고 일반화할 수 있는 능력이 입증되었습니다.


UniMoMo는 항체 설계 과제에서도 강력한 성과를 보였습니다. MEAN, dyMEAN, DiffAb 등 기존 방법과 비교했을 때,UniMoMo는 자연적으로 결합된 서열 및 구조(AAR 및 RMSD)의 재현율과 결합 에너지 개선(IMP)과 같은 핵심 지표 측면에서 다른 모든 목표를 능가했습니다.특히 다중 샘플링 생성 평가에서 UniMoMo는 더 높은 확률로 자연스러운 구조에 가까운 항체 단편을 생성할 수 있어 항체 구조 공간에서 우수한 탐색 능력을 보여줍니다.
마찬가지로, 서로 다른 분자 유형의 데이터를 사용하여 공동으로 학습한 UniMoMo(all)은 항체 데이터만을 사용하여 학습한 버전보다 모든 지표에서 더 우수한 성과를 보였습니다.이는 통합 모델링이 모델이 분자 구조의 보다 보편적이고 전달 가능한 공간 법칙을 학습하는 데 도움이 된다는 것을 보여줍니다.이 결과는 서로 다른 분자 유형 간의 구조 모델링에서 공통점을 강조하고 생성 품질을 개선하는 데 있어 교차 도메인 데이터 융합의 중요한 가치를 검증합니다.


UniMoMo는 또한 소분자 생성 작업에서도 뛰어난 성능을 보여주었습니다. CrossDocked2020 데이터세트에 대한 평가를 통해저자들은 UniMoMo가 CBGBench를 기반으로 한 포괄적인 평가에서 기존의 주류 방법을 능가한다는 것을 발견했습니다.
구체적으로, UniMoMo는 하부 구조 분포(원자 유형, 작용기 등), 화학적 특성 합리성(QED, LogP, SA 등), 기하학적 구조 품질(결합 길이/각도 분포 및 원자 충돌률 등), 상호작용 점수(Vina 도킹) 측면에서 더 높은 종합 점수를 달성했습니다(전체 실험 결과는 원본 텍스트를 참조하세요). 중요한 점은, 다양한 분자 유형에 걸쳐 학습된 UniMoMo(all)이 소분자 데이터로만 학습된 단일 도메인 버전에 비해 모든 평가 차원에서 상당한 개선을 보인다는 것입니다. 이는 다음을 보여줍니다가장 유연한 분자 구조와 가장 다양한 유형을 갖춘 소분자 시나리오에서도 통합 모델은 여전히 다른 분자 유형으로부터 기하학적 법칙과 상호 작용 패턴을 전달할 수 있으므로 소분자의 단량체 구조와 상대적 포켓 공간 레이아웃의 합리성을 개선합니다.이러한 현상은 UniMoMo의 핵심 개념을 다시 한번 입증합니다. 즉, 서로 다른 분자 간의 기하학적 제약과 결합 메커니즘은 공유 가능한 패턴을 가지고 있으며, 통합 모델링을 통해 이러한 잠재력을 효과적으로 자극할 수 있다는 것입니다.
세 가지 유형의 작업의 실험 결과를 결합한 UniMoMo는 매우 일관된 장점을 보여줍니다. 교차 분자 종 데이터를 사용하여 학습한 통합 모델은 해당 작업에서 기존의 단일 도메인 생성 모델보다 성능이 뛰어나고 단일 도메인 데이터로만 학습한 UniMoMo에 비해 성능이 눈에 띄게 향상되었습니다. 이러한 현상은 분자 설계에서 겉보기에 서로 다른 과제가 실제로는 기본적인 물리적, 화학적 제약과 공간적 기하학적 법칙에 있어서 높은 수준의 공통점을 가지고 있음을 보여줍니다.UniMoMo의 통합 모델링 전략은 이런 공통점을 포착하고 확대하여 업무 간 전환과 상호 보완적인 향상을 달성합니다.이러한 결과는 UniMoMo의 효과를 검증할 뿐만 아니라, 앞으로 더욱 강력한 통합 분자 생성 시스템을 구축하는 데 필요한 강력한 경험적 뒷받침을 제공합니다.
GPCR 사례 연구

연구진은 사례 연구의 일환으로 인간의 가장 중요한 약물 표적 중 하나인 G 단백질 결합 수용체(GPCR)를 선택하여 UniMoMo가 동일한 결합 부위에서 다양한 유형의 분자(펩타이드, 항체, 소분자)를 생성하는 능력을 평가했습니다. UniMoMo가 생성한 펩타이드, 항체 및 소분자는 모두 결합 에너지 평가에 일반적으로 사용되는 힘장(Rosetta ΔG, Vina 점수)에서 양호한 분포를 보입니다.더욱 놀라운 점은 생성된 소분자 구조가 수소 결합을 구축하고 표적과 주요 상호작용을 형성하는 데 사용되는 천연 아미노산 측쇄와 유사한 작용기를 자발적으로 시뮬레이션한다는 것입니다. 또한, 소형 분자는 펩타이드와 항체로부터 분자 백본의 아미드 연결과 같은 국소적 기하학적 구성을 빌려와서 원래 대형 분자에 더 적합한 결합 포켓을 효과적으로 채울 수 있습니다. 이 사례는 UniMoMo가 여러 모달리티를 차용하고 실제 작업에서 바인딩 포켓에 자동으로 적응하는 능력을 생생하게 보여주며, 3차원 구조 수준에서 타겟과 분자 간의 상호작용과 분자의 내부 기하학적 제약을 심층적으로 이해할 수 있는 잠재력을 보여줍니다.
미래 탐사
UniMoMo는 다양한 분자 유형과 작업에서 강력한 통합 생성 능력을 입증했지만, 저자들은 이 방향으로 탐구할 만한 가치가 있는 미래의 가능성이 여전히 많이 있다고 지적했습니다.
현재 연구는 주로 천연 아미노산과 일반적인 분자 조각의 모델링에 초점을 맞추고 있으며, 이는 비천연 아미노산, 변형 후 펩타이드/항체, 고리형 분자 등과 같은 보다 복잡한 약물 형태로 확장될 수 있으므로 더 광범위한 후보 분자 공간을 포괄할 수 있습니다. 통합 모델링이라는 개념은 모델의 제어 가능성과 해석 가능성을 연구할 수 있는 기회를 제공하며, 생성 모델을 더욱 안정적이고 실용적인 분자 설계 플랫폼으로 개발하는 데 도움이 될 것으로 기대됩니다. 요약하자면, UniMoMo의 도입은 분자 설계 작업을 위한 일반적이고 강력한 생성적 프레임워크를 제공할 뿐만 아니라, AI 기반 약물 발견에 대한 잠재력이 가득한 새로운 방향을 열어줍니다.