Command Palette
Search for a command to run...
MIT는 서열과 진동 사이의 양방향 매핑을 구현하는 최초의 엔드투엔드 동적 단백질 생성 모델인 VibeGen을 제안했습니다.

단백질은 생명 시스템의 핵심 기능 분자이지만, 그 기능은 정적인 구조에 의해서만 결정되는 것이 아니라 끊임없이 변화하는 구조적 역동성에서 비롯됩니다. 복잡한 에너지 지형 속에서 단백질은 펨토초에서 밀리초에 이르는 다양한 규모의 움직임을 통해 생리적 조건 하에서 동적 평형을 유지하며, 진정한 분자 기계라고 할 수 있습니다.
이러한 이유로 비정상적인 단백질 동역학은 다양한 질병과 밀접하게 연관되어 있습니다. 예를 들어, 종양 억제 단백질 p53은 구조적 유연성에 의존하는 방식으로 기능하는데, 발암성 돌연변이는 이러한 능력을 약화시킵니다. 반면, CFTR 돌연변이는 게이팅 동역학을 교란시켜 낭포성 섬유증을 유발합니다. 이러한 사실들은 다음과 같은 점을 시사합니다...단백질의 "움직임" 그 자체가 단백질 기능의 중요한 결정 요인이다.따라서 역동적인 관점에서 단백질을 이해하고 설계하는 것은 구조 생물학 및 생명 공학 분야에서 최첨단 연구 방향으로 떠오르고 있습니다.
지난 수십 년 동안 연구자들은 단백질 동역학을 규명하기 위해 핵자기공명(NMR), 수소-중수소 교환 질량 분석법(HDEMS), 극저온 전자 현미경(cryo-EM)과 같은 실험 기법과 분자 동역학 시뮬레이션 및 진동 정상 모드(VMS) 분석과 같은 계산 방법을 개발해 왔습니다. 그러나 이러한 방법들은 규모 확장에 어려움을 줄 정도로 복잡하거나, 계산 비용이 너무 많이 들고 시간이 오래 걸려 대규모 연구에는 적합하지 않습니다.
최근 몇 년 동안 딥러닝과 생성형 인공지능은 단백질 연구에 새로운 가능성을 열어주었습니다. AlphaFold2와 같은 모델은 높은 정확도의 구조 예측을 달성했으며, 이러한 방법들은 이차 구조, 결합 부위, 심지어 진동 특성까지 예측할 수 있습니다. 그러나기존의 대부분의 방법은 여전히 "구조 또는 단일 속성" 수준에 초점을 맞추고 있으며 내재적 역학에 대한 체계적인 모델링이 부족합니다.설계 분야에서 RFdiffusion이나 AlphaFold3와 같은 프레임워크는 여전히 구조물을 근사적인 강체로 취급하며, 동적 제약 조건을 제대로 도입하지 못하고 있습니다. 따라서 "순서-구조-동역학-기능"의 통합적인 매핑을 구축하고 동역학에 기반한 제어 가능한 설계를 구현하는 것은 여전히 핵심 과제입니다.
최근에,MIT와 카네기멜론 대학교의 공동 연구팀은 단백질을 생성하는 지능형 에이전트인 VibeGen을 제안했습니다.서열 생성과 진동 역학 예측을 결합하여 새로운 단백질 설계를 구현했습니다. 연구 결과에 따르면, 이 생성기를 통해 설계된 단백질은 안정적이고 새로운 구조로 접힐 뿐만 아니라, 주쇄 수준에서 목표 진동 진폭의 분포 특성까지 재현할 수 있습니다.
"VibeGen: 언어 확산 모델을 사용한 맞춤형 역학을 위한 에이전트 기반 엔드투엔드 신규 단백질 설계"라는 제목의 관련 연구 결과가 Matter에 게재되었습니다.

서류 주소:
https://www.cell.com/matter/abstract/S2590-2385(26)00069-X
저주파 정상 진동 모드 기반 단백질 동역학 데이터베이스
데이터베이스를 구축하려면,연구진은 2024년 1월에 업데이트된 단백질 데이터베이스(PDB)에서 아미노산 길이가 126개 이하인 단일 사슬 단백질을 선별했습니다.VMD, MMTSB, SCWRL4 등의 도구를 사용하여 구조를 정제하고 완성했습니다. 그런 다음 CHARMM 힘장을 기반으로 에너지 최소화를 수행하고 블록 정규 진동 모드 방법을 사용하여 모달 정보를 계산했습니다. 전체 병진 및 회전을 나타내는 처음 6개의 강체 모드를 제거한 후, 가장 낮은 주파수의 비자명 모드를 선택하여 후속 분석을 진행했습니다.
이를 바탕으로, 본 연구는 주 사슬의 각 잔기에 있는 Cα 원자의 변위 모드를 추출하여 정규 진동 모드 형상 벡터를 구성했습니다. 결과는 진동 변위의 뚜렷한 불균일 분포를 보여주었습니다. 사슬 끝부분과 구조가 느슨한 영역에서는 진폭이 더 컸고, α-나선 및 β-시트와 같은 조밀한 영역에서는 진동이 제한되었습니다. 회전 및 코일형 영역은 유연성이 크기 때문에 국부적인 피크를 나타냈습니다. 길이 차이의 영향을 제거하기 위해 벡터를 정규화하여 좌표에 독립적인 동적 설명자로 만들었습니다.
결정적인,연구진은 12,924개의 단백질 단일 가닥을 포함하는 데이터 세트를 구축했습니다.분석 결과 저주파 진동 모드는 매우 다양하며, 최대 진폭은 사슬 양 끝에 집중되어 있는 것으로 나타났습니다. 데이터 세트는 생성 모델의 학습 및 평가를 위해 9:1 비율로 학습 세트와 테스트 세트로 분할되었습니다.

VibeGen: 언어 확산 모델 기반의 엔드투엔드 신규 단백질 설계
본 연구의 핵심 과제는 정상 진동 모드의 형태가 단백질의 복잡한 3차원 구조와 탄성 특성에 의해 결정되며, 서열과 동역학 사이에 직접적인 대응 관계가 없다는 점입니다. 동시에, 단일 모드 정보는 고도로 퇴화되어 있고, 서로 다른 서열이 유사한 동역학적 특성을 나타낼 수 있어 역설계 문제가 특히 어렵습니다.
이러한 문제들을 해결하기 위해, 본 연구에서는 먼저 정상 진동 모드 분석과 전원자 분자 동역학 시뮬레이션을 통해 단백질 데이터베이스(PDB)에서 다수의 단백질에 대한 주요 동적 특성을 추출했습니다. 이를 바탕으로,연구진은 단백질 언어 확산을 위한 두 가지 협력 모델, 즉 단백질 설계 모듈(PD)과 예측 모듈(PP)을 구축했습니다.이 모듈들은 각각 서열과 정상 진동 모드 공간 사이의 순방향 예측과 역방향 설계를 담당합니다. 두 모듈은 유사한 구조를 가지고 있으며, 모두 사전 학습된 단백질 언어 모델(pLM)과 확산 모델의 조합을 기반으로 합니다.
설계 모듈의 역할은 목표 동적 특성을 기반으로 시퀀스를 생성하는 것입니다.잡음 제거 과정에서 확산 모델은 여러 채널을 통해 동적 조건 정보를 통합하고 잠재 공간에서 목표 특성에 부합하는 시퀀스를 점진적으로 생성합니다.예측 모듈은 대칭적인 구조를 가지고 있으며 입력 시퀀스로부터 정상 진동 모드의 형태를 추론합니다. 또한 사전 학습된 언어 모델에서 출력된 여러 시퀀스 표현을 활용하여 예측 결과를 최적화합니다.
두 모듈은 독립적으로 학습되며, 배포 단계에서는 함께 "생성-평가-선별"의 폐쇄 루프 협업 시스템을 구성합니다.설계 모듈은 먼저 후보 시퀀스를 생성하고, 예측 모듈은 실시간으로 해당 시퀀스의 동적 성능을 평가합니다.연구자들은 정확도나 다양성에 대한 필요에 따라 결과를 필터링할 수 있으며, 만족스러운 순서가 얻어질 때까지 필요한 만큼 반복 작업을 수행할 수 있습니다.

모델의 성능은 테스트 세트를 통해 검증되었습니다. L자형, U자형, W자형을 포함한 다양한 전형적인 정상 진동 모드 형상에 대해, 모델로 생성된 단백질은 실제 정상 진동 모드 분석을 통해 검증되었으며, 그 진동 형상은 설계 목표와 매우 잘 일치했습니다. 피어슨 상관 계수 및 상대 L2 오차와 같은 정량적 지표는 다음과 같은 결과를 보여주었습니다.이 방법은 복잡한 동적 제약 조건 하에서도 높은 정밀도의 설계를 구현할 수 있습니다.
구조적 관점에서 볼 때, 단백질 형성은 명확한 운동학적 상관관계를 보인다. 진동이 강한 영역은 무작위 코일이나 유연한 조각을 형성하는 경향이 있는 반면, 진동이 제한된 영역은 α-나선이나 β-시트와 같은 안정적인 구조를 형성하는 경향이 있다.이는 해당 모델이 구조와 역학 사이의 본질적인 관계를 효과적으로 포착했음을 보여줍니다.
모델 구현 수준에서 설계 및 예측 모듈 모두 ESM-2 시리즈에서 가져온 1억 5천만 개의 파라미터를 가진 중간 규모의 사전 학습된 모델을 pLM으로 사용하여 계산 효율성과 모델 성능의 균형을 맞춥니다. 확산 모델은 U자형 네트워크의 여러 채널을 통해 조건부 정보를 노이즈 제거 과정에 통합하며, Adam 옵티마이저를 사용하여 독립적으로 학습됩니다.
정확성과 참신성 모두에서 획기적인 발전
모델 성능을 평가하기 위해 본 연구에서는 여러 차원에 걸쳐 실험적 분석을 수행했습니다. 다양성 분석 결과는 다음과 같습니다...동일한 동적 목표를 달성하기 위해, 이 모델은 구조는 다르지만 기능은 동일한 여러 설계 방안을 생성할 수 있습니다.U자형 및 L자형 정상 진동 모드를 예로 들면, 설계된 단백질들은 모두 "밀집된 코어 + 열린 끝부분" 구조를 나타냅니다. 끝부분은 고진폭 영역에 해당하는 무작위 코일 구조이며, 코어는 저진폭 영역에 해당하는 α-나선 다발 또는 나선형 접힘 혼합 구조와 같은 다양한 형태로 형성될 수 있습니다. 이러한 다양성은 주로 저진동 영역에서 구조 선택의 자유도에서 비롯되며, 이 모델은 이러한 "다중 솔루션"을 성공적으로 포착하고 활용합니다.

예측 모듈의 효과는 비교 실험을 통해 검증되었습니다. 아래 그림에서 볼 수 있듯이, 동일한 후보 서열 집합에서 최적 예측 그룹과 최악 예측 그룹을 선택했을 때, 최적 예측 그룹의 실제 설계 정확도가 최악 예측 그룹보다 유의미하게 높았습니다(중앙값 피어슨 상관계수 0.53 대 0.31). 반면, 예측 모듈은 두 그룹 모두에서 안정적인 예측 정확도를 유지했습니다. 이는 다음과 같은 점을 시사합니다...설계 과정에서 예측 모듈을 도입하면 고품질 시퀀스를 효과적으로 선별하고 비용이 많이 드는 물리적 검증에 대한 의존도를 줄일 수 있습니다.

전반적인 성능 통계는 1,293개의 테스트 케이스를 기반으로 합니다. 아래 그림에서 볼 수 있듯이, 측정된 정규 모드 형상과 설계 목표 사이의 상관 계수 중앙값은 0.53이고, 상대 L2 오차 중앙값은 0.57로, 잔차 수준에서 고정밀 설계의 본질적인 어려움을 반영합니다. 전체적인 형상을 유지하기 위해 저역 통과 필터링을 수행한 후, 상관 계수 중앙값은 0.72로 증가하고, 오차 중앙값은 0.37로 감소합니다.이는 해당 모델이 진동의 전반적인 양상을 포착하는 데 특히 뛰어난 성능을 보인다는 것을 나타냅니다.이 특징은 단백질의 대규모 구조적 변화 역학에 있어 가장 중요한 생물학적 의미를 지닙니다.
새로움의 측면에서 BLAST의 가장 높은 서열 유사도는 이중 모드 분포를 나타내며, 주 피크는 새로 설계된 서열에 해당합니다.이는 해당 모델이 새로운 서열을 생성할 가능성이 더 높다는 것을 나타내며, 결과적으로 단백질 구조 및 동역학 솔루션의 잠재적 라이브러리를 효과적으로 확장합니다.

구조와 역학 사이의 상관관계는 여러 실험에서 일관되게 나타납니다. α-나선이나 β-겹침과 같은 밀집 구조는 주로 낮은 진폭 영역에 분포하는 반면, 높은 진폭 영역은 주로 루프 영역이나 끝부분 말림 구조입니다.이 모델은 이러한 물리 법칙을 성공적으로 포착했으며, 보조 구조 요소의 도움으로 국부적인 유연성을 제어할 수 있어 구조와 동역학 간의 관계에 대한 이해를 보여주었습니다.
전반적으로 이 모델은 운동학적 제약 조건 하에서 단백질 설계에 있어 정확성, 다양성 및 참신성 사이의 균형을 잘 유지하며, 향후 더욱 복잡한 기능적 설계를 위한 토대를 마련합니다.
지능형 에이전트 단백질 생성과 정상 진동 모드 역설계의 조합
정상 진동 모드 형상에 기반한 지능형 에이전트 단백질 생성 및 역설계 연구는 단백질 공학 분야에서 최첨단 연구 주제로 떠오르며, 학계 탐구와 산업 혁신을 모두 주도하고 있습니다.
학계에서는 수많은 대학 연구팀이 이 분야를 지속적으로 연구해 왔으며, 일련의 획기적인 성과를 거두었습니다. 일부 팀은 지능형 에이전트 협업 프레임워크를 최적화했습니다.일반적인 진동 모드 분석과 보다 발전된 단백질 언어 확산 모델을 결합하면 역설계에서 발생하는 퇴화 문제를 효과적으로 완화할 수 있습니다.본 연구는 정상 진동 모드의 형태와 단백질의 이차 구조 및 동적 특성 사이의 본질적인 관계를 더욱 검증하여, 특정 기능을 가진 단백질의 신규 설계를 위한 보다 견고한 이론적 기반과 기술적 경로를 제시한다.
다른 팀은 경량화 및 일반화에 집중하여 사전 학습된 단백질 언어 모델의 매개변수 크기와 학습 전략을 최적화하고, 일반화가 더 쉬운 더 작은 모델을 개발했습니다.더 나아가, 정상 진동 모드의 역설계 기법은 효소 촉매 부위 설계 및 단백질 결합제 최적화와 같은 특정 분야로까지 적용 범위가 확대되었습니다.이는 이후 산업 변혁을 위한 견고한 토대를 마련했습니다.
또한 구글 딥마인드는 알파프로테오를 출시했습니다.고강도 단백질 접착제 설계를 위한 최초의 인공지능 도구로서, 다양한 표적 단백질에 대한 새로운 단백질 접합체를 생성할 수 있습니다.암과 당뇨병 합병증과 관련된 혈관 내피 성장 인자 A를 포함하여, 본 실험은 기존 최고 방법보다 높은 실험 성공률을 달성했습니다. 결합 친화도는 기존 최고 방법보다 3~300배 높아 항암제 및 항바이러스제 개발을 가속화하고, 바이오센서 개발 및 작물 해충 저항성 향상에도 새로운 아이디어를 제공할 것으로 기대됩니다.
다른 회사들은 신약 개발의 문제점에 집중하여 정상 진동 모드 형상 역설계 기술을 활용해 특정 질병 표적에 맞는 단백질 약물을 설계함으로써 개발 주기를 단축하고 비용을 절감하며, 단백질 약물 개발을 더욱 정밀하고 효율적인 방향으로 이끌고 있습니다.
현재 학계의 지속적인 설계 정확도 및 모델 일반화 능력 최적화 노력과 산업계의 구현 효율성 및 적용 시나리오 확대 노력이 결합되어 단백질 설계 기술은 더욱 정밀하고 효율적이며 다양해지고 있습니다. 앞으로 기술이 더욱 성숙해짐에 따라 지능형 에이전트와 정상 진동 모드 분석 기반의 단백질 설계 방법은 제약, 산업 생산, 바이오 제조 등 다양한 분야에서 더욱 폭넓게 활용되어 새로운 혁신을 가져올 것으로 기대됩니다.








