ICML 2025에 선정된 청화대학교/인민대학교는 통합 생물분자 동역학 시뮬레이터인 UniSim을 제안했습니다.

청화대학교의 류양 교수 연구팀과 중국 인민대학교 가오링 인공지능학원의 황원빙 교수 연구팀이 공동으로 통일된 생물분자 시간-조대화 역학 시뮬레이터 UniSim을 제안했습니다.이 방법은 방대한 3D 분자 구조 데이터에 대한 잡음 제거 + 힘장 하이브리드 사전 학습을 통해 통합된 전체 원자 표현 모델을 얻고, 확률적 보간 생성 프레임워크를 기반으로 긴 시간 간격으로 분자의 전달 벡터장을 학습하고, 다양한 화학 환경에 빠르게 적응하기 위해 힘으로 유도되는 코어를 도입합니다. UniSim은 다양한 분자 유형(소분자, 펩타이드, 단백질)과 화학적 환경에서 통합된 시간-조대화 동역학 시뮬레이션 프레임워크를 구현한 최초의 제품입니다.분자 시뮬레이션 분야에서 딥러닝의 실용적 적용을 촉진했습니다.
관련 결과는 "UniSim: 생체 분자의 시간-조대화 역학을 위한 통합 시뮬레이터"라는 제목으로 ICML 2025에 선정되었습니다.

서류 주소:
더 많은 AI 프런티어 논문:
https://go.hyper.ai/UuE1o
통합된 시간적 조대화 시뮬레이터가 필요한 이유는 무엇입니까?
연구진은 분자 동역학 시뮬레이션 분야에서 통합된 시간 조대화 시뮬레이터를 구축하는 것이 합리적이고 필요하다고 믿습니다.한편, 통합 모델링 프레임워크는 분자 시스템 전반의 협업 시뮬레이션을 위한 기반이 됩니다.예를 들어, 단백질-리간드 상호작용과 같은 복잡한 시스템을 시뮬레이션할 때 단백질과 저분자는 종종 동일한 물리적 환경에 공존합니다. 만약 모델이 특정 유형의 분자에만 적용 가능하다면, 전체 원자 수준에서 두 분자 간의 결합 거동을 정확하게 복원하기 어려울 것입니다. 따라서 통합된 표현 기능을 갖춘 시뮬레이터는 동일한 모델 프레임워크 내에서 여러 유형의 분자를 동시에 처리할 수 있어 다분자 복합체 모델링을 위한 견고한 기반을 제공합니다.
반면, 통합 모델은 다양한 유형의 분자에 대한 구조적 데이터와 동적 데이터를 통합하는 데 도움이 되므로 모델의 일반화 및 전달 기능이 향상됩니다.현재 이용 가능한 분자 궤적 데이터는 매우 부족하고 불균등하게 분포되어 있으며, 단백질, 펩타이드, 저분자 등 다양한 유형의 데이터는 각각 고유한 강점을 가지고 있습니다. 이러한 데이터들이 모두 동일한 모델에서 사전 학습 및 학습에 참여할 수 있다면, 모델의 원자 수준 구조에 대한 전반적인 이해도가 크게 향상되고 분자 간 도메인 이동 능력이 더욱 강화될 것입니다.
동시에,시간 조대화 시뮬레이션을 도입하는 것도 시뮬레이션 효율성을 개선하는 핵심적인 방법입니다.기존의 분자 동역학 시뮬레이션은 펨토초와 같은 매우 작은 시간 단위에 의존하여 단계별로 진행하는데, 이는 계산 비용이 많이 들고 단백질 접힘과 같은 장기적인 거동을 포괄하기 어렵습니다. 시간 조대화(Time Coarsening) 기법은 현재 상태에서 미래 상태로의 사상 관계를 직접 학습합니다. 물리적 일관성을 유지한다는 전제 하에, 이 기법은 기존 단계 크기보다 훨씬 큰 시간 단위로 궤적을 빠르게 생성할 수 있어 시뮬레이션 효율성을 크게 향상시키고 실용적인 시간 내에 장기 시뮬레이션을 수행할 수 있도록 합니다.

통합 표현: 다중 규모 및 다중 유형 분자 특성화 문제 해결
통합된 모든 원자 표현 모델은 분자 종에 걸친 동역학 시뮬레이션의 초석이지만,그러나 이러한 모델을 구현하는 데는 여전히 다음과 같은 기술적 과제가 있습니다.
* 첫째, 분자 시스템은 수십 개의 원자로 구성된 작은 유기 분자부터 수천 개의 원자로 구성된 단백질 거대 분자까지 다양하며, 규모와 구조가 매우 복잡하고 다양합니다.모든 원자가 직접 학습에 사용된다면, 모델은 분자의 종류에 따라 각기 다른 주의 메커니즘을 갖게 되어, 모델의 교차 전달 능력이 억제됩니다.
* 둘째, 통일된 모든 원자 표현을 달성하기 위한 기초는 통일된 원자 수준의 어휘를 사용하는 것입니다.직관적인 접근 방식은 주기율표를 임베딩 표현의 어휘로 직접 사용하는 것입니다. 그러나 이 접근 방식은 펩타이드와 단백질에 대량으로 존재하는 규칙적인 단위, 예를 들어 천연 아미노산과 같은 하위 구조를 무시하여 단백질 유형 데이터에서 성능이 저하됩니다.
* 마지막으로, 다양한 상태의 분자 표현을 완벽하게 학습하기 위해 대량의 정상 상태 및 비정상 상태 분자 3차원 구조 데이터가 사전 학습 데이터 세트에 포함될 것입니다.불안정 분자를 사전 학습하는 일반적인 패러다임은 원자에 작용하는 힘을 학습하는 것입니다. 그러나 원자력장을 계산할 때 데이터셋마다 다른 힘장 매개변수를 사용하며, 레이블 데이터의 정렬이 잘못되는 문제가 있습니다.
통합 모델링을 달성하기 위해 UniSim은 위의 문제를 해결하기 위해 세 가지 핵심 기술을 도입했습니다.
* 그래디언트-환경 서브그래프: 분자 규모를 합리적으로 균형화
데이터 전처리 단계에서는 1,000개 이상의 원자로 구성된 대형 분자의 3차원 구조 데이터를 분할합니다.분 < r최대 전처리 과정에서 분자 내의 모든 원자가 무작위로 선택되고, 해당 원자가 구의 중심으로 간주됩니다.분 그리고 r최대 반지름이 있는 구를 만들어 보세요작은 공에 포함된 원자는 그래디언트 하위 그래프로 간주되고, 큰 공에 포함된 원자는 환경 하위 그래프로 간주됩니다.일반적으로 원자간 힘은 거리에 따라 기하급수적으로 감소한다는 물리적 사전 이론에 근거하여 r최대– 르분 적절하게 선택하면, 원래 분자의 환경 서브그래프 외부 원자와 기울기 서브그래프 원자 간의 상호작용은 무시할 수 있습니다. 따라서 학습 과정에서 원래 분자 대신 환경 서브그래프가 입력으로 사용되고, 손실 함수 계산에는 기울기 서브그래프만 사용되어 분자 구조 데이터의 규모를 합리적으로 균형 있게 조정하고 모델의 교차 전이 성능을 향상시킵니다.
* Atom 임베딩 확장: 더욱 정교한 원자 표현을 얻으세요
이 연구는 원소 주기율표를 기반으로 합니다.동일한 요소에 대해 확장된 어휘로 여러 학습 가능한 이산 임베딩 표현을 도입합니다.원자가 위치한 규칙적인 하부 구조를 포착하는 데 사용됩니다. UniSim은 간단한 그래프 신경망을 기반으로 각 원자의 이웃 정보를 통합하고, 원자에 해당하는 확장 어휘집에 포함된 각 표현의 확률을 구하고, 가중 합산을 통해 원자의 확장된 표현을 구합니다.이러한 표현은 특정 분자 종 내의 규칙적인 하부 구조와 원자 수준의 정확도의 균형을 이루어 효율적이고 자세한 원자 표현을 제공합니다.
* 멀티 헤드 하이브리드 사전 학습: 다양한 분자 상태와 라벨 분포를 갖는 데이터의 하이브리드 학습
UniSim은 정상 상태와 비정상 상태 분자 구조를 함께 학습하기 위해 다음과 같은 방법을 사용합니다. 정상 상태 데이터의 경우, 이 논문에서는 잡음 제거 사전 학습 패러다임을 사용하여 잡음이 있는 데이터의 잡음을 제거하여 원자 표현을 학습합니다. 비정상 상태 데이터의 경우, 모델은 보존적 힘장을 직접 학습하고, 서로 다른 힘장 매개변수는 서로 다른 출력 헤드에 해당하므로 서로 다른 레이블 분포로 인해 발생하는 오류를 방지합니다.
본 논문에서는 SO(3) 동치성을 만족하는 기본 그래프 신경망 모델로 TorchMD-NET을 사용합니다. 위의 주요 사전 학습 기법을 기반으로,대규모 다중 소스 3D 분자 데이터에 대한 사전 학습이 완료되었고, 통합된 원자 표현 모델의 효과적인 구성이 달성되었습니다.
벡터 필드 모델: 궤적에서 장기 상태 전환 학습
기존의 분자 동역학 시뮬레이션은 수 펨토초 단위의 적분 단계로 제한되어 단백질 접힘과 같은 장기적 행동을 효율적으로 샘플링하기 어렵습니다. UniSim은 확률적 보간 프레임워크를 채택하고 사전 학습된 전체 원자 표현 모델 이후에 기하학적 벡터 퍼셉트론을 벡터 필드 모델로 연결합니다.이 모델은 긴 시간 단계에서 분자 상태 간의 전달 벡터장을 학습하여 종단 간 시간적 조대화 동역학 모델링을 달성합니다.
학습 과정에서, 실제 동역학 궤적에서 주어진 시간 간격만큼 떨어진 분자 형태 쌍을 학습 샘플로 선택하고, 보간 경로에 무작위 섭동을 도입하며, 속도장(velocity)과 잡음 제거기(denoiser)를 함께 학습하여 연속 시간 내에 궤적을 생성합니다. UniSim은 기존의 수치 적분 방식과 비교하여 시뮬레이션 효율성을 크게 향상시키고 기존 시뮬레이션의 시간 척도 병목 현상을 극복할 수 있습니다.
힘에 의해 유도되는 핵: 복잡한 화학 환경에 대한 빠른 적응
다양한 용매, 온도, 압력 조건에서 분자 동역학은 서로 다른 잠재 에너지 표면을 가지며, 이는 생성된 형태의 분포에 큰 영향을 미칩니다.이를 위해 UniSim은 무작위 차이 프레임워크에서 가상 중간 힘장을 정의하여 궤적 샘플링을 안내하는 힘 안내 커널을 도입했습니다.이 중간 힘장은 생성 경로의 양쪽 끝(즉, 초기 상태와 최종 상태)에서 실제 MD 힘장과 동일하며 물리적 사전 조건과 높은 일관성을 갖도록 설계되어 생성된 형태가 대상 힘장 아래의 볼츠만 분포와 더욱 일관성을 갖습니다.
UniSim은 중간 힘장을 맞춤으로써 사전 훈련된 모델과 벡터장 모델의 매개변수를 수정할 필요가 없습니다.새로운 화학 환경에 효율적으로 적응할 수 있는 대상 힘장에 대해서는 플러그형 힘 유도 커널만 학습하면 됩니다.모델의 일반화 및 마이그레이션 기능을 효과적으로 향상시킵니다.

실험적 검증: 다양한 분자 유형
다양한 분자 유형에 대한 UniSim의 다용성을 확인하기 위해연구진은 소분자, 펩타이드, 단백질의 세 가지 유형의 분자를 포함하여 전방 시뮬레이션 작업에서 여러 분자 유형의 데이터를 체계적으로 평가했습니다.이 실험은 시간적으로 조대화된 동역학 시뮬레이션을 수행하는 현장에서 딥 러닝 모델과 비교하여, 통합된 원자 표현이 모델의 분자 상태와 교차 모달 일반화 능력에 대한 이해를 개선하는 데 도움이 되는지, 그리고 힘으로 유도되는 핵의 참여가 대상 힘장 하에서 생성된 형태의 합리성과 분포 유사성과 같은 주요 지표에서 모델의 성능에 어떤 영향을 미치는지 알아보는 것을 목표로 합니다.
결과는 UniSim이 모든 분자 유형에서 포괄적인 우수성을 달성했다는 것을 보여줍니다.분포 유사성에서 우수한 성능을 보이며, 핵심 형태 합리성 지표(Val-CA)에서도 상당한 개선을 보였습니다. 순방향 시뮬레이션 생성 작업에서 궤적의 각 형태는 자기회귀에 의해 생성되는데, 이는 누적 오차가 크기 때문에 형태 합리성을 개선하는 것이 매우 어렵다는 점에 유의해야 합니다.


펩타이드와 단백질의 전방 시뮬레이션 작업에서,FBM, ITO, SD와 같은 기존 방식과 비교했을 때, UniSim은 분포 유사성(TIC-2D), 구조 합리성(VAL-CA), 접촉 맵 오차(CONTACT)와 같은 지표에서 앞서 있습니다. 특히, 힘 유도 코어 도입 이후, UniSim은 분포 유사성과 같은 지표에서 기존 수준을 유지하면서도 주요 형태 합리성 지표에서 상당한 개선을 보였습니다. 동시에, 복잡한 단백질 시스템에서 UniSim은 수백 단계의 순방향 시뮬레이션만으로 에너지 장벽을 뛰어넘고 여러 준안정 상태를 포괄할 수 있어, 대형 생체 분자의 효율적인 시뮬레이션에 새로운 지평을 열었습니다.


알라닌-디펩타이드 사례 연구
또한 연구진은 장기 분자 동역학 시뮬레이션에서 UniSim의 안정성을 알아보기 위해 고전적 시스템인 알라닌-디펩타이드의 모델을 미세 조정하고 100,000단계의 장기 시뮬레이션을 수행했습니다.UniSim은 MD 결과와 비교하여 5가지 알려진 주요 준안정 상태를 성공적으로 재현했습니다.동적 과정에서 알라닌 디펩타이드의 자유 에너지 지형이 정확하게 복원되어 장기 시뮬레이션에서 모델의 안정성과 물리적 일관성이 완벽하게 검증되었습니다.

시야
UniSim은 분자 유형과 화학적 환경에서 통합된 시간적 대략적 동역학 시뮬레이션을 구현한 최초의 프레임워크입니다.이는 약물 개발, 단백질 설계 및 기타 시나리오에서 딥러닝을 광범위하게 적용할 수 있는 실현 가능한 경로를 제공합니다. 연구진은 또한 향후 다음과 같은 방향이 더욱 탐구될 수 있다고 강조했습니다.
* 생성된 샘플의 효과성을 개선하기 위한 보다 효율적인 교차 모달 형태 최적화 메커니즘
* 복잡한 생물물리학적 메커니즘을 밝히기 위해 더 긴 시간 척도의 궤적 모델링
* 분자 간 상호작용에 초점을 맞춰 복잡한 시스템의 역동적인 메커니즘을 탐구합니다.