Command Palette
Search for a command to run...
무질서한 단백질 조립의 예측 능력을 재구성하기 위해 NVIDIA, MIT, 옥스퍼드 대학교, 코펜하겐 대학교, Peptone 및 기타 연구진이 생성 모델과 새로운 벤치마크를 발표했습니다.

구조생물학의 역사에서 "구조가 기능을 결정한다"는 원리는 한때 거의 흔들리지 않는 기본 법칙으로 여겨졌습니다. 인슐린의 고전적인 나선형 구조와 헤모글로빈의 사중체 구조는 단백질이 생물학적 기능을 수행하려면 안정적인 3차원 구조를 가져야 한다는 공감대를 강화했습니다.
하지만,내재적으로 무질서한 단백질(IDP)과 내재적으로 무질서한 영역(IDR)의 발견이러한 전통적인 이해는 끊임없이 재구성되고 있습니다. 이들은 생리적 조건에서 고정된 구조를 형성하지 않지만, 신호 전달 및 유전자 전사 조절과 같은 핵심 과정에 깊이 관여하며 암이나 신경 퇴행성 질환과 같은 주요 인간 질병과 밀접한 관련이 있습니다.
계산생물학 연구는 진핵생물 프로테옴에서 약 301개의 TP3T 아미노산 잔기가 무질서한 상태에 있음을 추가로 밝혀냈습니다. 이는 무질서가 "비정상적인" 것이 아니라 생명체의 정상적인 구성 요소임을 의미합니다. 그러나무질서한 단백질은 매우 역동적인 특성을 가지고 있어 전통적인 실험 기법을 사용하여 안정적으로 포착하기 어렵고, 기존의 계산 방법을 사용하여 그 구조 분포를 정확하게 시뮬레이션하는 것도 어렵습니다.이는 해당 분야에서 오랫동안 기술적 병목 현상으로 남아 있습니다.
이러한 과제를 해결하기 위해 영국의 단백질 분석 기술 개발업체인 Peptone, 코펜하겐 대학교, NVIDIA, 옥스퍼드 대학교, MIT, 듀크 대학교 등으로 구성된 합동 팀은 두 가지 주요 혁신을 제안했습니다.그 중 하나는 PeptoneBench 시스템 평가 프레임워크입니다.이 프레임워크는 SAXS, NMR, RDC, PRE와 같은 다중 소스 실험 데이터를 통합하고, 최대 엔트로피 재가중치와 같은 통계적 방법을 결합하여 실험적 관찰과 이론적 예측 간의 엄격한 정량적 비교를 달성합니다.두 번째는 생성 모델인 PepTron입니다.확장된 합성 IDR 데이터세트에 대한 학습은 특히 무질서한 영역을 모델링하는 능력을 향상시켜 무질서한 단백질의 구조적 다양성을 더 잘 포착할 수 있게 해줍니다.
연구팀은 PeptoneBench를 사용하여 PepTron을 AlphaFold2, Boltz2, BioEmu와 같은 주류 예측 도구와 체계적으로 비교했습니다. 그 결과, PepTron은 정형 영역과 무질서 영역 모두 예측하는 데 있어 실험 결과와 높은 일관성을 보이며 최첨단(SOTA) 성능을 달성했습니다. 이러한 발전을 바탕으로 "형태 집합"을 사용하여 단백질 구조를 예측하는 더욱 정확하고 생물학적으로 현실적인 프레임워크가 등장하여 정형-무질서 영역 전체에 걸쳐 단백질에 대한 전반적인 이해를 크게 향상시키고 있습니다.
"질서-무질서 연속체에 걸친 단백질 앙상블 예측 발전"이라는 제목의 관련 연구 결과가 bioRxiv에 사전 인쇄본으로 게재되었습니다.

서류 주소:
https://www.biorxiv.org/content/10.1101/2025.10.18.680935v1
공식 WeChat 계정을 팔로우하고 백그라운드에서 "PepTron"을 답글하면 전체 PDF를 받으실 수 있습니다.
더 많은 AI 프런티어 논문:
https://hyper.ai/papers
PeptoneBench 및 다중 소스 실험 데이터 세트의 체계적 구성
단백질 데이터베이스(PDB)는 구조 생물학에서 가장 기본적이고 중요한 공공 리소스이지만, 본질적으로 무질서한 단백질(IDP)과 무질서한 영역(IDR)을 포괄하는 데 있어 상당한 구조적 차이가 있습니다.약 31개의 TP3T 항목만 순서 없는 것으로 표시되었습니다.그러나 인간의 프로테옴에서는 이러한 무질서한 영역의 비율이 20–30%로 높습니다.
아래 그림에서 볼 수 있듯이, 이러한 체계적인 편향으로 인해 대부분의 구조 예측 모델은 자연스럽게 안정적인 형태를 "선호"하게 되어, 장기적으로 역동적이고 무질서한 상태에서 학습하는 능력이 제한됩니다. 이러한 결함을 보완하기 위해,연구자들은 약 771개의 TP3T에 대한 비정렬 비율을 보유한 IDRome과 같은 보충 데이터베이스를 도입했습니다.PDB는 통계적 분포 측면에서 PDB를 보완할 수 있습니다. 그러나 이 데이터베이스는 실제 실험에서 분석된 구조적 데이터가 부족하여 모델링 및 평가의 직접적인 벤치마크로 사용하기 어렵고, 그 활용 가치도 여전히 상당히 제한적입니다.

앞서 언급한 데이터 병목 현상을 극복하려면첫 번째 단계는 장애의 정량적이고 비교 가능한 지표를 확립하는 것입니다.본 연구는 단백질의 평균 G 점수를 핵심 지표로 사용하며, 값은 0(완전히 질서 있음)에서 1(완전히 무질서함)까지입니다. NMR 이차 화학 이동(CS) 데이터를 기반으로 계산된 이 점수는 국소적인 이차 구조 형성 경향을 정확하게 반영합니다. 실험적 CS 데이터가 부족한 단백질의 경우, 연구팀은 TriZOD로 학습된 ADOPT2 머신 러닝 모델을 사용하여 G 점수를 예측함으로써 전체 질서-무질서 스펙트럼을 통합적으로 정량화했습니다.
이를 바탕으로 연구팀은 PDB의 구조적 데이터에만 의존하면 형태 집합의 품질을 객관적으로 평가할 수 없다고 지적했습니다.따라서 순서가 있는 범위와 없는 범위 전체를 포괄하는 실험적 데이터 세트를 구축하는 것이 필요합니다.
이를 위해 연구진은 아래 표에서 볼 수 있듯이 세 가지 상호 보완적인 데이터 리소스를 구축했습니다. PeptoneDB-CS(BMRB에서 도출된 NMR 화학적 이동), PeptoneDB-SAXS(SASBDB에서 얻은 SAXS 스펙트럼), 그리고 PeptoneDB-Integrative(여러 직교 실험 데이터를 통합하는 전용 IDP 세트)입니다. 이 세 가지 유형의 데이터는 서로 다른 구조와 상호 보완적인 정보를 가지고 있습니다. CS는 국소 구조를, SAXS는 전체 형태를, 그리고 Integrative는 교차 검증을 지원합니다.

이 데이터를 바탕으로 아래 그림과 같이 표현됩니다.연구자들은 예측된 형태 집합과 실험 데이터 간의 일관성을 정량화하기 위해 PeptoneBench 평가 프레임워크를 개발했습니다.전체 프로세스는 다음을 포함합니다. 형태 집합 표준화 및 전처리; 예측된 구조를 순방향 모델을 사용하여 실험과 유사한 관측치에 매핑; 정규화된 RMSE를 기반으로 일관성 점수 매기기(모델과 실험 모두의 불확실성을 프로세스 전반에 걸쳐 통합). 최종 결과는 RMSE-G 점수 그래프로 제시되며, Lowes 평활화 및 부트스트래핑을 사용하여 오차를 추정하고, 이를 PeptoneBench 집계 점수로 합성하여 다양한 도구의 성능을 직접 비교하는 정량적 기준을 형성합니다.

높은 RMSE를 가진 초기 형태 집합 중 일부는 최대 엔트로피를 사용하여 가중치를 재부여한 후 실제로 실험 분포에 더 가까워질 수 있다는 점을 강조할 가치가 있습니다. "잘못된 가중치"를 "누락된 형태"로 오인하는 것을 방지하기 위해,PeptoneBench는 또한 보정 가능한 샘플링 편향과 회복 불가능한 형태적 손실을 구별하기 위해 재가중치 전후의 RMSE를 보고합니다.이러한 전략은 실험 조건에 극도로 민감하고 매우 역동적인 IDP에 특히 중요합니다. 생성 모델이 충분히 풍부한 구조적 공간을 포괄할 수 있는 한, 실험 환경이 다르더라도 재가중치 프로세스를 통해 빠르게 적응할 수 있으므로 예측 결과의 실용성과 신뢰성이 크게 향상됩니다.
PepTron: 정렬된 단백질과 무질서한 단백질의 균형을 맞추는 구조 모델
제안된 PepTron 모델은 ESMFlow 흐름 매칭 아키텍처를 기반으로 구축된 단백질 형태 생성기입니다. 이 모델의 목표는 완전히 질서 있는 형태부터 고도로 무질서한 형태까지 전체 형태 스펙트럼을 포괄하여 물리적으로 타당하고 구조적으로 다양한 형태 집합을 생성하는 것입니다.
모델 아키텍처 측면에서,PepTron은 ESMFlow를 기반으로 하며 NVIDIA BioNeMo 프레임워크에 구현되어 학습 및 추론 효율성을 개선합니다.이 모델은 cuEquivariance 삼각 어텐션 메커니즘을 통합하고 BioNeMo의 모듈형 공동 설계(Modular Co-Design) 하위 패키지를 통해 흐름 매칭 기능을 지원합니다. 학습 과정은 BioNeMo의 분산형 모범 사례를 따르며, 여러 병렬 전략과 혼합 정밀도 연산을 결합하여 다중 GPU 환경에서 안정적이고 효율적인 확장을 가능하게 합니다.
PepTron은 추론 단계에서 다중 서열 정렬(MSA)이나 외부 ESM 가중치에 의존하지 않는다는 점을 강조할 필요가 있습니다. 단일 체크포인트만으로 완전한 형태 집합을 생성할 수 있어 사용 기준이 크게 간소화됩니다.
무질서한 영역에서 실험 구조 데이터가 부족하다는 문제를 해결하기 위해 연구팀은 IDRome을 기반으로 합성 구조 데이터셋인 IDRome-o를 구축했습니다. 따라서,그들은 매우 낮은 비용으로 대규모로 물리적으로 타당한 IDP 구조 세트를 생성할 수 있는 단편 조립 기반 단백질 구조 생성 도구인 IDP-o를 개발했습니다. IDP-o는 단편 조립과 계층적 사슬 성장 전략을 결합하여 2억 1,400만 개의 구조를 포함하는 AlphaFold 데이터베이스에서 6잔기 단편을 추출하고, 이를 통해 무질서한 단백질의 일시적 나선형 구조를 보다 정확하게 포착합니다.
IDR-o의 목표는 특정 평형 분포를 시뮬레이션하는 것이 아니라, 시퀀스가 샘플링할 수 있는 모든 합리적인 형태를 포괄하는 것입니다. 따라서 IDR-o의 출력은 후속 최대 엔트로피 재가중치에 특히 적합하며, 분자 동역학 시뮬레이션을 위한 고품질 초기 형태 라이브러리로도 활용할 수 있습니다.
아래 그림과 같이 안정적인 구조를 예측하는 경향이 있는 기존 모델의 편향을 극복하기 위해,PepTron은 실험 데이터와 합성 데이터를 결합한 하이브리드 학습 전략을 사용합니다.먼저, PDB 데이터베이스에서 실험적으로 도출된 구조를 사용하여 모델을 사전 학습합니다. 그런 다음, 합성적으로 생성된 무질서 단백질 세트를 미세 조정에 도입하여 모델이 정렬된 형태와 무질서한 형태의 연속 분포를 완전히 학습할 수 있도록 합니다. 이러한 전략은 계산량이 제한된 조건에서도 다양한 단백질에 대한 모델의 예측 성능을 크게 향상시킵니다.
구체적인 훈련 절차에 있어서,연구는 두 단계로 나뉘었습니다.초기 단계에서는 ESMFold 가중치를 사용하여 흐름 매칭 모듈을 PDB 데이터를 사용하여 재학습하고, 시퀀스 길이 트리밍 범위를 512개 잔기로 확장합니다. 하이브리드 미세 조정 단계에서는 PDB 실험 구조와 IDRome-o 합성 데이터로 구성된 하이브리드 데이터셋을 학습 데이터로 사용하여 모델의 최종 최적화를 수행합니다. 이러한 설계를 통해 PepTron은 전체 정렬-무질서 스펙트럼에 접근하여 단백질의 동적 구조 공간을 더욱 포괄적이고 사실적으로 모델링할 수 있습니다.

전체 스펙트럼 형태에 대한 모델 검증: PepTron 및 주류 방법의 체계적 비교
연구팀은 PeptoneBench 프레임워크를 사용하여 훈련 데이터셋과 완전히 독립적인 실험 데이터에 대한 PepTron의 성능을 체계적으로 평가하고, ESMFold, ESMFlow, AlphaFold2, Boltz2, BioEmu와 같은 주류 모델들과 비교했습니다. 동시에, 연구팀은 고유 무질서 단백질(IDP)에 초점을 맞춘 PeptoneDB-Integrative 데이터셋에 대한 특정 테스트를 수행하여 각 모델의 무질서 형태 모델링 역량을 종합적으로 검토했습니다. 그 결과, 모델 간의 명확한 차별화 특성을 확인했습니다.
아래 그림에서 볼 수 있듯이, PeptoneDB-CS 데이터 세트에서 각 모델의 성능은 단백질 무질서 정도(G 점수)에 따라 크게 달라집니다. ESMFold와 ESMFlow는 정렬된 영역을 예측하는 데 정확하지만, 무질서한 영역에서는 성능이 크게 떨어집니다. IDP-o는 전형적인 상보적 패턴을 보입니다. 즉, 무질서 정도가 높을수록 성능이 더 좋습니다.PepTron은 전체 정렬-무질서 형태 스펙트럼에 걸쳐 안정적이고 높은 일관성을 유지합니다.이러한 균형 능력은 PeptoneDB-SAXS 데이터 세트와 이후의 재가중치 분석에서 추가로 검증되었으며, 이를 통해 PepTron이 정렬된 구조의 정확성을 희생하지 않고도 무질서한 단백질의 구조적 다양성을 효과적으로 포착할 수 있음을 보여주었습니다.

추가적인 교차 모델 비교 결과는 아래 그림에 나와 있습니다. AlphaFold2와 Boltz2는 정렬된 단백질 예측에서 여전히 우위를 점하고 있지만, 무질서 정도가 증가함에 따라 성능이 체계적으로 감소합니다. 이와 대조적으로,PepTron과 BioEmu는 구조적 스펙트럼 전체에 걸쳐 더 강력한 견고성을 보여 IDP의 매우 이질적인 구조적 특징을 처리하는 데 더 적합합니다.

무질서 영역에 대한 훈련이 정렬된 단백질에 대한 예측 능력을 저해하지 않는지 확인하기 위해, 연구팀은 CAMEO22와 CASP14의 정렬된 구조 데이터에 대한 추가 테스트를 수행했습니다. 그 결과...PepTron은 RMSD, LDDT, TM과 같은 주요 지표에서 ESMFlow와 동일한 성능을 보이며, IDR 모델링 기능을 확장하면서도 정렬된 구조의 정확도를 손상시키지 않음을 보여줍니다.
아래 그림과 같이 여러 실험 지표를 통합한 PeptoneDB-Integrative 데이터셋에서 모델 성능은 차이를 더욱 드러냅니다. IDP-o는 최대 엔트로피 재가중치 적용 후 특히 우수한 성능을 보이며, RMSE와 RDC Q 인자 모두에서 다른 모델보다 월등히 뛰어납니다. PepTron과 BioEmu는 RDC 지표에서 유사하지만, BioEmu는 국소 화학적 이동 예측에 더 유리합니다. 가중치가 적용되지 않은 조건에서도IDP-o는 대부분의 지역 및 글로벌 지표에서 선두를 달리고 있으며, 무질서한 단백질 구조를 다루는 데 있어 자연스러운 이점을 보여줍니다.

이 연구는 또한 현재 모델에서 흔히 나타나는 몇 가지 병목 현상을 지적했습니다.대부분의 모델은 장거리 접촉 선호도를 포착하지 못하고 다양한 수준의 이차 구조 편향을 보입니다. 더욱이, 주류 모델은 일반적으로 "조건부로 접힌 서열"의 펼쳐진 상태를 정확하게 설명하는 데 어려움을 겪는 반면, IDP-o는 이 측면에서 독보적인 우위를 보입니다.
무질서에서 질서로: IDP 연구의 세계적 혁신과 새로운 장
내재적으로 무질서한 단백질(IDP)은 매우 역동적인 구조적 특성과 많은 주요 질병과의 긴밀한 연관성으로 인해 글로벌 생명 과학 및 제약 산업에서 빠르게 연구 분야가 되고 있습니다.
학계에서는 AI 구조 예측 기술이 IDP의 '동적 비밀번호'를 해독하는 데 핵심적인 역할을 하고 있습니다.케임브리지 대학에서 제안한 AlphaFold-Metainference 방법은이 접근법은 AlphaFold 정렬 오류 맵과 분자 동역학 시뮬레이션을 결합하여 주로 안정적인 구조를 예측하는 기존 AlphaFold의 한계를 극복하고 무질서한 영역을 포함하는 IDP와 구조 세트를 성공적으로 구성하여 다형성을 이해하는 새로운 경로를 제공합니다.
논문 제목:
무질서한 단백질의 구조적 앙상블에 대한 AlphaFold 예측
논문 링크:https://www.nature.com/articles/s41467-025-56572-9
코펜하겐 대학 연구팀은 AlphaFold를 단백질 언어 모델과 더욱 통합했습니다.이를 통해 인간의 무질서한 프로테옴의 형태를 대규모로 예측할 수 있게 되었습니다.이는 IDP 연구에서 AI 기술의 보편성과 확장성을 보여줍니다.
논문 제목:
인간의 본질적으로 무질서한 프로테옴의 구조적 앙상블
논문 링크:https://www.nature.com/articles/s41586-023-07004-5
학술적 연구 결과가 질병 치료에 실질적인 변화를 가져올 수 있을지는 업계가 기술을 실제 응용 분야에 접목할 수 있는 능력에 달려 있습니다. 영국 생명공학 회사 펩톤과 독일 제약 회사 에보텍의 협력은...이는 IDP 연구를 약물 개발로 확장하는 실행 가능한 경로를 보여줍니다.펩톤의 초고속 수소-중수소 교환 질량 분석법(HDX-MS) 플랫폼을 활용하여 연구자들은 무질서한 단백질의 역동적인 변화를 실시간으로 추적하고 기존의 구조 결정 방법으로는 식별하기 어려운 결합 부위를 포착할 수 있습니다. Evotec의 표적 검증, 약물 스크리닝 및 임상 개발 역량과 결합하여, 약물 개발이 어려운 IDP 표적을 약물 개발 잠재력을 가진 후보 분자로 전환할 수 있습니다.
이러한 일련의 발전은 "정렬된-무질서한 구조의 전체 스펙트럼을 포괄하는" 펩트론 모델의 추세를 반영할 뿐만 아니라, 한때 파악하기 어려웠던 무질서 단백질이 정밀 의학 및 바이오 의약품 분야의 핵심 표적으로 점차 부상하고 있음을 시사합니다. 지속적인 기술적 혁신과 심화되는 산업 협력을 통해 IDP는 미래 질병 치료를 위한 이해와 개입 경로에 대한 완전히 새로운 틀을 제공할 수 있습니다.
참조 링크:
1.https://www.vbdata.cn/intelDetail/717834
2.https://c.m.163.com/news/a/JDIR2LQJ0552ZPM2.html
3.https://www.vbdata.cn/intelDetail/580634








