HyperAIHyperAI

Command Palette

Search for a command to run...

AI 기반 양자 정밀화: 카네기멜론 대학교를 비롯한 연구진이 단백질의 전체 원자 모델을 정밀화하기 위해 양자 역학적 제약 조건을 사용하는 최초의 방법인 AQuaRef를 제안했습니다.

Featured Image

생명 과정의 분자 메커니즘을 이해하려면 먼저 생체 고분자의 3차원 구조를 살펴봐야 합니다.원자 수준의 구조를 규명하는 것은 구조 생물학의 핵심 과제이며, 단백질 기능 이해, 유전자 조절 메커니즘 규명, 표적 치료제 개발을 위한 중요한 토대입니다.단백질 촉매 반응, 유전 정보의 핵산 전달, 항체의 항원 인식 등 이러한 핵심적인 생물학적 과정들은 모두 정확한 구조 모델을 바탕으로 설명됩니다.

현재 극저온 전자 현미경과 X선 결정학은 생체 고분자의 구조를 규명하는 주요 실험 기술이며, 이를 통해 방대한 양의 고해상도 구조 데이터가 축적되었습니다. 최근에는 AlphaFold와 RoseTTAFold로 대표되는 계산 예측 방법 또한 상당한 발전을 이루어 효율적인 구조 모델링 도구를 제공하고 있습니다. 그러나 미지의 구조 유형을 발견하고 복잡한 상호작용을 규명하는 데 있어서 실험 분석은 여전히 대체 불가능한 역할을 수행하고 있습니다.실험적 구조 규명 과정에서 원자 모형 정제는 최종 단계에 가까운 핵심적인 단계입니다. 이 단계의 목표는 입체화학 법칙을 준수하고 실험 데이터에 최대한 부합하는 분자 모형을 구축하는 것입니다.현재 주류를 이루는 구조 정밀화 소프트웨어인 CCP4와 Phenix는 주로 표준 데이터베이스의 입체화학적 제약 조건을 활용하여 적절한 결합 길이와 결합 각도를 유지하고 원자 간 충돌을 줄입니다.

하지만 이러한 제약 시스템에는 여전히 상당한 한계가 있습니다. 주로 공유 결합 구조를 대상으로 하며 수소 결합이나 π-패킹과 같은 중요한 비공유 상호작용에 대한 체계적인 설명이 부족합니다. 해상도가 낮을 경우, 이로 인해 모델이 실제 화학적 상태에서 벗어날 수 있습니다. 구조에 새로운 리간드나 특이한 연결이 나타날 경우, 정밀화를 위해 수동으로 매개변수를 정의해야 합니다. 또한, 국소적인 화학적 환경으로 인한 합리적인 기하학적 편차가 제약 시스템에 의해 이상 현상으로 잘못 해석되어 강제로 수정될 수도 있습니다. 이론적으로,양자역학은 분자 간 상호작용을 더욱 정확하게 설명할 수 있지만, 생체 고분자는 일반적으로 수천 개 또는 수만 개의 원자를 포함하고 있어 완전한 양자 컴퓨팅을 구현하는 데 막대한 비용이 소요됩니다.따라서 기존 연구의 대부분은 리간드 결합 부위와 같은 국소적인 영역에 국한되어 있습니다.

이 문제를 해결하기 위해 카네기멜론대학교, 폴란드 브로츠와프대학교, 플로리다대학교 등 여러 대학의 공동 연구팀이 구성되었습니다.인공지능 기반 양자 정제 방법인 AQuaRef를 제안합니다.이 방법은 원자 포텐셜 함수의 AIMNet2 머신러닝을 기반으로 하며, 정밀화 작업에 맞게 맞춤화되었습니다. 고전적인 힘장 모델의 계산 효율성에 근접하면서도 양자역학 계산 결과를 더 정확하게 근사화할 수 있어, 생체 고분자의 모든 원자 수준에서의 양자 정밀화를 위한 새로운 기술적 경로를 제시합니다.

"AQuaRef: 기계 학습을 이용한 단백질 구조의 양자 정밀화 가속화"라는 제목의 관련 연구 결과는 Nature Communications에 게재되었습니다.

연구 하이라이트:

* AIMNet2 머신러닝 포텐셜 함수를 기반으로 하는 AQuaRef는 최초로 전체 단백질 원자 모델의 양자 정밀화를 달성했습니다.

* 61개의 저해상도 X선 및 극저온 전자 현미경 모델을 대상으로 한 테스트에서 AQuaRef는 57개 모델보다 우수한 성능을 보였습니다.

* DJ-1 및 YajL 단백질의 짧은 수소 결합의 경우, AQuaRef는 사람의 개입 없이 실험적 증거와 일치하는 양성자 위치를 결정할 수 있습니다.

서류 주소:https://www.nature.com/articles/s41467-025-64313-1
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "AQuaRef"라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

펩타이드 기계 학습에서 잠재 함수 학습을 위한 100만 개의 샘플로 구성된 데이터 세트.

본 연구는 기계 학습을 이용하여 펩타이드 시스템의 잠재 함수에 대한 매개변수화된 모델을 구축하는 것을 목표로 한다.따라서 데이터셋 설계는 화학적 조성, 입체 구조 공간, 분자간 상호작용이라는 세 가지 차원을 체계적으로 포괄해야 합니다.

화학적 관점에서 보면,연구진은 20개의 표준 아미노산, 11개의 양성자화 상태, 3개의 N-말단 변형 및 4개의 C-말단 변형을 포함하는 SMILES 문자열 형태의 소규모 펩타이드 데이터베이스를 구축했습니다.이러한 기반 위에 모든 단일 및 이중 펩타이드를 열거하고, 삼중 펩타이드와 사중 펩타이드의 하위 집합을 무작위로 선택했습니다. 또한, 이황화 결합으로 연결된 펩타이드와 그 셀렌화 유사체를 생성했습니다. 구조 공간을 완전히 포괄하기 위해 연구진은 OpenEye Omega 소프트웨어를 사용하여 키랄 중심에 대한 제한 없이 집중적인 비틀림 각도 샘플링을 수행했으며, 이를 통해 D형, L형 및 혼합 입체화학적 펩타이드 시스템에 모델을 적용할 수 있었습니다.

2~4개의 펩타이드로 구성된 복합체를 구축하고, 분자 간 상호작용을 모사하기 위해 공간적 방향을 무작위로 조정했습니다. 데이터 유출 가능성을 방지하기 위해 전체 데이터 생성 과정에서 천연 서열이나 실험 구조를 참조하지 않았습니다. 계산 규모를 제어하기 위해 모든 펩타이드와 그 복합체에 포함된 원자 수(수소 포함)를 120개로 제한했습니다.

초기 형태를 얻은 후연구진은 먼저 GFN-FF 힘장을 사용하여 분자 동역학 시뮬레이션을 수행하고 비평형 구조를 샘플링했습니다.이 방법은 비틀림 각도와 분자 간 자유도를 해제하면서 직교 좌표계를 사용하여 전체적인 구성을 초기 입력과 유사하게 유지합니다.

이후, 위원회 기반 질의 능동 학습 전략이 도입되었습니다. 먼저, 50만 개의 초기 샘플을 무작위로 선택하여 4개의 모델로 구성된 앙상블 시스템을 학습시켰습니다. 그런 다음, 4번의 반복 학습을 수행했습니다. 각 반복 학습에서 모델의 에너지 및 원자력 예측 불확실성을 기준으로 샘플을 선택하고, 불확실성이 높은 구조들을 DFT 계산 후 학습 데이터셋에 추가했습니다. 마지막 반복 학습에서는 불확실성 기반 최적화를 도입하여 예측 불확실성은 높지만 에너지는 낮은 경계 구조를 우선적으로 고려했습니다. 이러한 과정을 통해 최종적으로 약 100만 개의 샘플로 구성된 학습 데이터셋을 얻었으며, 각 샘플의 평균 원자 수는 약 42개였습니다.

연구진은 이론적으로 생성된 데이터 외에도 RCSB 및 EMDB 데이터베이스에서 실험 구조를 선별하여 모델을 검증했습니다. 선별 기준은 다음과 같습니다. 단백질만 포함하는 단일 구조 모델, 1,000~10,000개의 비수소 원자, 2.5~4Å의 해상도, MolProbity 충돌 점수 50 미만, 결합 길이 및 결합 각도 편차가 표준값의 4배를 넘지 않는 것.

AquaRef: 거대 분자 시스템을 위한 AI 기반 양자 정제 접근법

AQuaRef는 먼저 입력된 원자 모델의 무결성 검사를 수행합니다. 구조에 누락된 원자가 있는 경우, 프로그램은 자동으로 채워 넣으려고 시도합니다. 그러나 이 과정에서 특히 원래 모델에 수소 원자가 없는 경우 새로운 입체 장애 충돌이 발생할 수 있습니다. 누락된 원자가 주쇄 원자와 같은 중요한 구조인 경우, 양자 정제를 진행할 수 없습니다. 심각한 입체 장애 또는 심각한 기하학적 이상이 감지되면, 표준 입체화학적 제약 조건을 사용한 빠른 기하학적 정규화를 먼저 수행하여 원자 위치를 최소한으로 조정하면서 문제를 해결합니다.

결정학적 데이터의 경우, 정밀화 과정에서 단위 셀 대칭성과 주기적 상호작용도 고려해야 합니다.구체적으로, 이 프로그램은 공간군 대칭 연산자를 기반으로 모델을 초격자로 확장한 다음, 주 복제 원자로부터 거리가 설정된 범위 내에 있는 대칭 복제본만 남겨두고 이를 잘라냅니다. 이 과정은 일반적으로 극저온 전자 현미경 구조에서는 불필요합니다.

원자 보충 및 모델 확장이 완료되면 시스템은 Q|R 소프트웨어 패키지의 표준 정제 프로세스에 들어갑니다. AQuaRef의 핵심 아키텍처는 기본 AIMNet2 모델과 기본적으로 동일하지만 구조 정제 작업을 위해 몇 가지 핵심적인 조정이 이루어졌습니다.

첫째, 이 모델은 장거리 쿨롱 상호작용과 분산 상호작용을 명시적으로 계산하지 않고, DFT-D4의 총 에너지를 재현하도록 직접 훈련되었습니다.이는 CPCM 암묵적 용매 모델에서 쿨롱 상호작용을 원자 전하만으로는 정확하게 추정하기 어렵고, 장거리 상호작용이 분극 가능한 연속 매질에 의해 크게 차폐되기 때문입니다. 또한, 차단 반경이 5Å 이상인 장거리 분산 항은 정밀화 과정에서 주요 원자 힘에 미치는 영향이 매우 미미하므로 정확도에 영향을 주지 않고 무시할 수 있습니다.

둘째로, 이 모델은 GFN1-XTB에서 명시적인 단거리 지수 반발 항을 도입하여 공간적 입체 장애 충돌이 있는 구조를 다룰 때 더 나은 안정성을 제공합니다.모델 학습은 B97M-D4/def2-QZVP 방법을 사용하여 계산된 에너지, 원자력, 허쉬필드 부분 원자 전하를 이용하여 수행되었습니다. 학습은 무작위 가중치 초기화, 배치 크기 256, 총 150만 단계의 학습 단계로 시작되었습니다. 나머지 하이퍼파라미터는 기존 AIMNet2 설정값을 그대로 사용했습니다.

계산 효율성 측면에서 보면, 아래 그림과 같이...AIMNet2 프레임워크에서 에너지와 원자력의 계산 시간과 최대 GPU 메모리 사용량은 모두 시스템의 원자 수에 따라 선형적으로 증가합니다(O(N)).약 10만 개의 원자로 구성된 단백질 시스템의 경우, 단일 지점 에너지 및 힘 계산에는 약 0.5초밖에 걸리지 않습니다. 80GB의 비디오 메모리를 갖춘 NVIDIA H100 GPU 하나에서 최대 약 18만 개의 원자로 구성된 모델을 처리할 수 있습니다.

41건의 극저온 전자 현미경 분석과 20건의 X선 모델 분석을 통해 검증된 AQuaRef의 국소 구조는 2Å 해상도로 최적화되었습니다.

AQuaRef의 성능을 평가하기 위해,연구진은 극저온 전자 현미경 모델 41개, 저해상도 X선 모델 20개, 초고해상도 X선 모델 10개를 포함하는 테스트 세트를 구축했습니다.61개의 저해상도 모델 모두에 해당하는 고해상도 상동 참조 구조가 갖춰져 있습니다. 정제 과정에서 비교를 위해 세 가지 유형의 제약 조건이 설정되었습니다. AIMNet2 양자 제약 조건(즉, AQuaRef), 표준 기하학적 제약 조건, 그리고 표준 제약 조건에 추가된 수소 결합 및 2차 구조와 같은 추가 제약 조건입니다.

결과는 아래 그림과 같습니다.양자역학적으로 정제된 저해상도 모델은 MolProbity 점수 및 Ramachandran 플롯 Z-점수와 같은 기하학적 지표에서 기존 제약 조건 방법보다 훨씬 뛰어난 성능을 보입니다.한편, 모델과 실험 데이터의 적합도는 대체로 일관성을 유지했습니다. X선 구조의 경우 과적합이 약간 감소했고(Rwork와 Rfree의 차이가 작아짐), 극저온 전자 현미경 구조의 경우 CCmask는 약간 감소했지만 EMRinger 점수는 거의 변화가 없었습니다. 이러한 결과는 기하학적 품질의 전반적인 향상과 함께 모델의 과적합이 감소했음을 시사합니다.

표준 제약 조건에 추가적인 기하학적 제약 조건을 더하면 모델 품질이 향상될 수 있지만, AQuaRef는 여전히 더 합리적인 기하학적 구조를 제공하며 고해상도 참조 모델에 더 가깝습니다. 경우에 따라 표준 제약 조건과 양자 정제된 구조 간의 국소적 차이가 2Å에 달할 수 있습니다.

41개의 극저온 전자 현미경 모델과 20개의 X선 모델의 최적화 결과

본 연구에서는 AQuaRef를 여러 주요 정제 방법과 비교했습니다. 결과는 아래 그림에 나와 있습니다. X선 데이터에는 AMBER, Rosetta, REFMAC5를, 극저온 전자 현미경 데이터에는 Servalcat을 사용했습니다. 전반적으로,AquaRef는 Rfree 성능이 약간 더 우수하고 과적합 정도가 가장 낮습니다.Servalcat과 비교했을 때, 두 제품 모두 EMRinger 점수는 비슷하지만, Servalcat의 CCmask 점수가 약간 더 높습니다.

기하학적 품질 측면에서,AquaRef는 Rosetta와 유사한 성능을 보이지만 REFMAC5 및 Servalcat보다 훨씬 뛰어난 성능을 보여줍니다.Rosetta는 기준 모델과의 전반적인 적합도가 약간 더 높은데, 이는 비경사 최적화 전략으로 인한 더 큰 수렴 반경과 관련이 있을 수 있습니다. 또한, AQuaRef와 Rosetta는 AMBER에 이어 합리적인 수소 결합 구조를 생성할 수 있는 반면, REFMAC5와 Servalcat은 이러한 세부 사항을 정확하게 복원하지 못합니다.

61개의 저해상도 모델에 대한 최적화 결과

짧은 수소 결합 시스템에 대한 테스트에서 연구진은 파킨슨병 관련 단백질 DJ-1과 그 동족체인 YajL을 예시로 사용하여 AQuaRef가 양성자화된 상태를 처리하는 능력을 조사했습니다. 데이터베이스의 입체화학적 제약을 받는 기존의 정밀화 방법은 종종 결합 길이가 실제 값에서 벗어나게 합니다.AQuaRef 정밀화의 초기 모델로 대칭형 이중양성자화 구조를 사용했을 때, 얻어진 양성자 위치와 결합 기하학은 제약 조건이 없는 정밀화 결과와 일치합니다.기존 제약 조건을 추가하면 결합 길이가 데이터베이스의 탈양성자화된 표준값에 가까워집니다. 실험 데이터를 2Å 해상도로 축소하여 원자 세부 정보를 크게 줄였을 때에도 AQuaRef는 원래 1.15Å 데이터와 거의 동일한 구조를 복원할 수 있는 반면, 기존 제약 조건 정제는 실제 구조에서 더 크게 벗어납니다. AQuaRef는 DJ-1의 D24 잔기의 Oδ2 원자에 양성자를 위치시키는데, 이는 에너지 계산과 차분 전자 밀도 맵 모두에서 뒷받침되는 결과입니다.

야생형 DJ-1의 결합 거리 분석

YajL 단백질에서 두 개의 E14/D23 짧은 수소 결합에 대한 AQuaRef 정밀화 결과는 제약 없는 정밀화 결과와 일치하며, 이는 양성자가 D23과 E14 모두에 공유되어 전형적인 낮은 에너지 장벽 수소 결합 특성을 나타낸다는 것을 의미합니다. 이는 양성자가 주로 단일 산소 원자에 위치하는 DJ-1의 경우와는 다릅니다. AIMNet2에서 제공하는 에너지 분포는 비교적 평평한 포텐셜 에너지 표면을 보여주는데, 이는 실험 데이터의 제약 조건 하에서 양성자 위치를 자유롭게 조정할 수 있음을 의미합니다. 동시에, 차분 전자 밀도 플롯은 수소 원자 근처에서 3σ보다 훨씬 높은 피크를 보여주며, 이는 이러한 구조적 해석을 뒷받침하는 추가적인 증거가 됩니다.

수소 결합선을 따라 에너지 분포

단백질 양자 정제 분야에서 산업-학계-연구 협력의 획기적인 발전

단백질 양자 정제, 머신러닝 잠재 함수 구축, 원자 모델 최적화와 같은 첨단 분야에서 여러 연구팀이 지속적으로 이 방향을 탐구해 왔으며, 일련의 진전을 이루었습니다. 예를 들어,옥스퍼드 대학교 연구팀이 개발한 신경망 방법인 nn-tm fcc는 거의 완벽한 양자역학적 정확도로 잔류물 조각의 고정밀 잠재 에너지 표면 모델을 구축할 수 있습니다.에너지 및 원자력 계산의 제곱평균오차는 각각 1.0 kcal/mol 및 1.3 kcal/(mol·Å) 이내로 제어됩니다. 이 방법을 사용하면 15개의 대표적인 단백질에 대한 에너지 및 원자력 계산을 단 10~100초 만에 완료할 수 있으며, 이는 기존 양자역학 계산보다 수천 배 빠른 속도입니다.

논문 제목: 딥러닝 기반 포텐셜을 활용한 단백질 구조 예측 개선
논문 링크:https://www.nature.com/articles/s41586-019-1923-7

또 다른 독일 공동 연구팀은 비가변 반복 전략과 IonQ 이온 트랩 양자 컴퓨팅 시스템을 결합한 BF-DCQO 양자 알고리즘을 제안했습니다.12개의 아미노산이 관련된 3D 접힘 문제의 계산 시간이 기존 GPU 클러스터를 사용할 때 72시간에서 약 4.3분으로 단축되었습니다.속도 증가폭 또한 천 배에 달했습니다.

논문 제목: 고차 이진 최적화를 위한 바이어스 필드 디지털화된 반단열 양자 알고리즘
논문 링크:https://www.nature.com/articles/s42005-025-02270-3

전반적으로 양자역학적 방법, 머신러닝 잠재 함수, 그리고 실험적 구조 데이터의 조합은 생체 고분자의 구조를 정밀하게 분석하는 새로운 기술적 접근 방식을 제공하며, 저해상도 구조 모델링, 리간드 결합 모드 분석, 기능 부위 연구와 같은 분야에서 더욱 안정적인 역할을 수행할 것으로 기대된다.

AI 기반 양자 정밀화: 카네기멜론 대학교를 비롯한 연구진이 단백질의 전체 원자 모델을 정밀화하기 위해 양자 역학적 제약 조건을 사용하는 최초의 방법인 AQuaRef를 제안했습니다. | 뉴스 | HyperAI초신경