"블라인드 스크리닝"에서 "정밀 위치 지정"까지, AlphaPPIMI 프레임워크는 일반화 기능을 크게 개선했으며, PPI 인터페이스 레귤레이터의 예측 성능은 기존 방식을 능가합니다.

特色图像

복잡한 생명 조절 네트워크 내에서 단백질-단백질 상호작용(PPI)은 세포 내 신호 전달, 에너지 대사, 그리고 유전자 활동을 조절하여 정상적인 생명 유지에 필수적인 역할을 합니다. PPI는 건강의 생리적 항상성과 질병 발생 시 발생하는 비정상적인 변화 모두에 중요한 역할을 합니다. 연구에 따르면 PPI의 기능 장애는 암, 신경 퇴행성 질환, 그리고 다양한 감염성 질환과 밀접한 관련이 있는 것으로 나타났습니다. 따라서 PPI를 표적으로 하는 약물 개발은 신약 연구개발의 핵심 분야가 되었습니다.

초기 과학자들은 MDM2-p53과 같은 단백질-단백질 상호작용을 연구하고 이런 상호작용에 개입하면 질병을 치료할 수 있는 잠재력이 있으며, 특히 이전에는 타깃으로 삼기 어려웠던 질병 표적에 대한 새로운 아이디어를 제공할 수 있다는 것을 확인했습니다.그러나 PPI의 특징은 상호작용 인터페이스가 일반적으로 비교적 평평하고 소분자 약물을 삽입하는 데 적합한 명확한 구조적 특징이 부족하다는 점인데, 이는 약물 개발에 엄청난 어려움을 초래합니다.특히 새로 발견된 PPI나 구조적 정보가 제한적인 PPI의 경우, 기능을 조절할 수 있는 분자를 찾는 것이 더욱 어렵습니다.

연구진은 PPI의 계면이 넓고 평탄함에도 불구하고 "핫스팟"이라고 불리는 핵심 영역이 여전히 존재한다는 것을 발견했습니다. 이 영역들은 상호작용에서 "스위치"처럼 작용하여 약물 설계의 이상적인 표적이 됩니다.


인공지능 기술, 특히 머신러닝과 딥러닝의 급속한 발전으로 PPI 약물 개발 프로세스가 크게 가속화되었습니다. 잠재적인 PPI 억제제를 효율적으로 식별하는 2P2IHUNTER, 대규모 가상 스크리닝을 가능하게 하는 PPIMpred, 그리고 조절 분자를 예측할 뿐만 아니라 항-COVID-19 연구에서 실질적인 가치를 입증하는 SMMPPI를 포함한 다양하고 혁신적인 알고리즘과 도구들이 등장했습니다. 상당한 진전에도 불구하고, 여전히 과제는 남아 있습니다. 유사성 스크리닝에 크게 의존하는 기존의 계산 방법은 PPI 계면의 복잡한 상호작용 특성을 완벽하게 포착하는 데 어려움을 겪습니다. 더욱이, 기존 모델은 다양한 단백질 유형에 대한 일반화 능력이 제한적이어서 새로운 표적에 대한 약물 개발의 효율성을 저해합니다.

최근 몇 년 동안, 트랜스포머 기반 사전 학습된 언어 모델들은 위 문제들에 대한 새로운 아이디어를 제시해 왔습니다. 이러한 모델들은 수많은 단백질 서열로부터 핵심 특징들을 자동으로 학습하여 상호작용을 더욱 지능적으로 예측할 수 있습니다.

이러한 방향에 따라 중국석유대학과 연세대학교의 공동 연구팀은 여러 첨단 기술을 통합하여 AlphaPPIMI라는 새로운 프레임워크를 구축했습니다.이 도구는 대규모 사전 학습된 모델과 적응형 학습 메커니즘을 결합하여 "PPI 인터페이스를 특별히 타겟으로 하는 조절자를 발견하는" 핵심 과제를 해결합니다.사전 훈련된 대규모 모델의 장점을 최대한 활용하고 전용 교차 주의 모듈을 통해 복잡한 결합 패턴을 효과적으로 모델링함으로써, 다양한 PPI 계열에 대한 모델의 일반화 능력이 크게 향상되었으며, 이는 PPI를 표적으로 하는 약물의 미래 개발에 강력한 지원을 제공합니다.

관련 연구 결과는 "Alphappimi: PPI-조절자 상호작용 예측을 위한 포괄적인 딥 러닝 프레임워크"라는 제목으로 Journal of Cheminformatics에 게재되었습니다.

서류 주소:
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-025-01077-2
공식 계정을 팔로우하고 "AlphaPPIMI"라고 답글을 달면 전체 PDF를 받을 수 있습니다.

더 많은 AI 프런티어 논문:
https://hyper.ai/papers

데이터 세트: DLiP를 핵심으로 한 PPI 데이터 세트 시스템 구축

이 연구에서는 120개의 PPI와 이에 해당하는 12,605개의 고유 조절자를 포함하는 DLiP 데이터 세트를 훈련 핵심으로 사용했습니다.또한 각 단백질 복합체 쌍의 서열, 3차원 구조 및 실험 활동 데이터를 제공하여 모델 구축을 위한 전면적인 지원을 제공합니다.

연구팀은 독립적인 검증을 위해 DiPPI와 iPPIDB 데이터베이스에서 두 가지 벤치마크 테스트 세트를 구축했습니다. 두 세트 모두 실험적으로 검증된 인터페이스 조절제와 그 구조 및 결합 정보를 포함하고 있습니다. 연구팀은 데이터 수집 과정에서 세 가지 품질 관리를 시행했습니다. 이종이량체 PPI만 유지하고, 결합 부위가 불분명한 샘플은 제거하고, 인간 PPI로 범위를 제한했습니다. 또한, 정확한 주석 처리를 위해 여러 표적에 작용하는 화합물을 분리했습니다.

두 벤치마크 세트의 최종 세부 사항은 다음과 같습니다.DiPPI에는 1,316개의 PPI 목표에 해당하는 201개의 조절자가 포함되어 있습니다.각 샘플에는 분자 구조, 단백질 서열, 계면 구조 및 활성 태그가 있습니다. iPPIDB는 2,203개의 조절자와 34개의 PPI를 포괄하며, 모든 단백질 서열은 UniProt 데이터베이스에서 가져온 것이므로 데이터 일관성이 보장됩니다.

본 연구에서 사용된 훈련 데이터 세트(DLiP) 및 테스트 데이터 세트(DiPPI 및 iPPIDB)

두 벤치마크 세트의 물리적, 화학적 특성을 분석한 결과, 인터페이스 타겟팅 특성과 화학 공간 분포가 상당히 다르다는 사실이 발견되었으며, 이는 모델 일반화의 어려움을 증가시킬 것입니다.ECFP4 분자 지문을 계산하여, 두 벤치마크 세트의 화합물의 평균 타니모토 유사성이 매우 낮다는 것을 발견했습니다.이는 이들 화합물의 구조적 다양성이 비교적 높다는 것을 나타냅니다.

특정 PPI 계열에 대해, 본 연구에서는 다른 PPI 계열에 선택적으로 작용하는 조절인자를 잠재적 비활성 샘플로 선정하는 한편, 위음성 위험을 줄이기 위해 알려진 활성 조절인자와 유사한 구조를 가진 분자는 제외했습니다. 양성 및 음성 샘플 수의 불균형을 고려하여, 연구팀은 음성 샘플을 다운샘플링하여 샘플 수가 균형을 이루는 데이터 세트를 구축했습니다. 이후 민감도 분석 결과, 양성 및 음성 샘플 비율을 어떻게 조정하든 모델 성능은 매우 안정적이며 비율에 크게 의존하지 않는 것으로 나타났습니다. 검증된 비활성 화합물이 있지만, 분포가 불균일하여 포함 후 데이터 편향이 발생할 수 있으므로 음성 샘플 세트에는 포함하지 않았습니다.

이 방법의 실제 적용 가치를 검증하기 위해,연구팀은 또한 ChemDiv 데이터베이스에서 "PPI 특정 라이브러리"를 검토했습니다. 이 라이브러리에는 PPI의 계면 특성에 맞춰 특별히 설계된 화합물 205,497개가 포함되어 있습니다.이 대규모 가상 스크리닝은 약물 개발 시나리오에서 이 방법의 실용성을 보여주었습니다.

AlphaPPIMI 프레임워크: 다중 소스 기능 추출, 양방향 교차 주의 및 CDAN 일반화 최적화

아래 그림과 같이,이 연구에서는 PPI와 조절자 간의 결합 관계를 예측하기 위해 특별히 AlphaPPIMI라는 새로운 계산 프레임워크를 개발했습니다.이 프레임워크는 인터페이스 바인딩 사이트에서의 상호작용을 특히 타겟팅하는 데 중점을 두고 Uni-Mol2, ESM2, ProTrans, ECFP, PFeature를 포함한 여러 고급 모듈을 통합하여 효율적인 표현 학습을 달성하는 동시에 PPI 관련 기능을 포괄적으로 추출하기 위해 노력합니다.

AlphaPPIMI 아키텍처 개요

분자 특성화 단계에서 연구팀은 8,400만 개의 매개변수를 갖춘 Uni-Mol2 모델을 사용하여 원자, 화학 결합, 기하학적 정보, 분자 지문을 통합했습니다.각 조절자에 대해 768차원의 전역 특징 벡터가 생성되었습니다. 연구팀은 또한 ECFP4 지문을 통합하여 순환 구조와 같은 주요 화학 정보를 포착하는 1,024차원 이진 벡터를 생성했습니다. 궁극적으로, 이 두 가지 유형의 특징을 결합하여 분자 위상, 3차원 기하 구조, 그리고 화학적 하부 구조를 포함하는 1,792차원 특징 벡터를 생성하여 계면 결합 예측에 대한 신뢰할 수 있는 데이터 지원을 제공했습니다.

단백질 특징 추출에는 세 가지 상호 보완적인 접근 방식이 사용됩니다.Transformer 아키텍처 기반의 ESM2-150M 모델은 6천만 개의 UniRef50 시퀀스를 학습하여 계면 형성과 관련된 아미노산 관계를 구체적으로 포착하는 640차원 특징 벡터를 생성합니다. 4천 5백만 개 이상의 단백질 시퀀스를 학습한 ProtTrans 모델은 ESM2를 보완하는 진화적 패턴을 포착하는 1,024차원 임베딩 벡터를 출력합니다. 마지막으로, PFeature 방법은 19가지 범주의 설명자를 통해 단백질 구조 및 물리화학적 특성에 대한 정보를 제공합니다. 이 세 가지 방법을 결합하여 단백질 시퀀스 패턴과 계면 특이적 특성을 포괄적으로 포괄하는 3,366차원 단백질 표현을 생성합니다.

단백질과 조절자 간의 복잡한 상호작용을 모델링하기 위해 AlphaPPIMI는 아래 그림과 같이 양방향 교차 어텐션 모듈을 설계했습니다. 이 모듈은 먼저 조절자 특징 행렬 FM과 목표 특징 행렬 FP에 선형 변환을 수행한 후, 이 변환을 어텐션 하위 모듈에 입력하여 키-값 수준에서 양방향 정보 교환을 가능하게 합니다. PPI 특징은 조절자 소스의 어텐션 가중치를 사용하여 최적화되고, 조절자 특징은 PPI 기반 어텐션 메커니즘을 사용하여 조정됩니다.잔여 연결과 최대 풀링 작업도 모듈에 추가되었습니다.각 모달리티의 고유한 정보를 유지하면서 두 모달리티 간의 상호작용 패턴을 동적으로 학습하고 궁극적으로 상호작용에 대한 보다 포괄적인 표현을 출력할 수 있습니다.

교차 주의 모듈

데이터셋 간 특징 분포의 차이를 고려하여 (예를 들어 DiPPI는 인터페이스 대상 변조기에 초점을 맞추는 반면, DLiP와 같은 일반 데이터셋에는 그러한 정보가 부족함) AlphaPPIMI는 아래 그림과 같이 조건부 도메인 적대 네트워크(CDAN)를 도입합니다. CDAN은 도메인 판별기의 조건으로 "특징 임베딩과 분류 예측의 공동 표현"을 사용하여, 소스 도메인과 타겟 도메인 간의 분포 정렬을 달성하는 동시에 판별 특징을 보존합니다.학습 과정은 미니맥스 게임을 채택합니다. 즉, 피처 인코더와 교차 주의 모듈은 도메인 불변 표현을 생성하는 역할을 하고, 판별기는 피처의 소스를 구별하는 데 사용됩니다.이 메커니즘은 다양한 단백질 계열에 걸쳐 모델의 일반화 능력을 크게 향상시키고 새로운 인터페이스 타겟 조절자를 식별하기 위한 더욱 강력한 지원을 제공합니다.

조건부 도메인 적대 네트워크 모듈

AlphaPPIMI의 교차 도메인 일반화 능력 평가 및 적용 검증

연구팀은 AlphaPPIMI가 PPI 조절자를 예측하는 데 있어 도메인 간 적응성을 시험하기 위해 마이그레이션 실험을 설계했습니다.DLiP 데이터 세트는 "소스 도메인"(모델 학습에 사용되는 데이터)으로 간주되고, DiPPI 및 iPPIDB 데이터 세트는 "대상 도메인"(모델 검증에 사용되는 데이터)으로 간주됩니다.

실험 결과에 따르면 모든 모델의 성능은 도메인 이동에 따라 저하되지만 AlphaPPIMI의 성능이 더 강력합니다.DiPPI에서의 AUROC와 AUPRC는 MultiPPIMI보다 상당히 높습니다. 교차 도메인과 도메인 내 성능 간의 차이는 도메인 적응 전략의 필요성을 강조합니다. 아래 그림에서 볼 수 있듯이, 본 연구는 조건부 특징 정렬을 통해 교차 도메인 분포 적응을 달성하는 AlphaPPIMI-CDAN 아키텍처를 추가로 제안했습니다. 이 모델은 DiPPI와 iPPIDB에서 기준 모델보다 전반적으로 우수한 성능을 보입니다. 기존의 에지 정렬 방법과 달리, 이 방법은 범주 조건부 분포를 기반으로 특징 정렬을 유도하여 더욱 차별화된 표현을 생성합니다. PPI 도메인의 미묘한 기능 차이로 인한 분포 변화를 효과적으로 해결하는 동시에, 부정 전이를 완화하여 교차 도메인 예측 강건성과 일반화를 향상시킬 수 있습니다.

크로스 도메인 기능 분포 분석 및 성능 비교

실제 적용 검증을 위해, 본 연구에서는 명확한 계면 구조를 가지고 있으며 항암의 핵심 타깃인 Hsp90-Cdc37 PPI도 대상으로 삼았습니다.아래 그림 A에 표시된 것처럼 AlphaPPIMI는 ChemDiv 라이브러리에서 예측 점수가 0.8 이상인 화합물을 선별했는데, 이 화합물의 화학 공간은 알려진 활성 억제제의 분포와 가깝습니다. 아래 그림 B에 표시된 것처럼 연구진은 검증된 억제제 DCZ3112를 기준으로 사용하여 구조적 유사성과 약리구조 분석을 통해 후보 화합물 3개를 선별했습니다. 아래 그림 D-E에 표시된 것처럼 분자 도킹을 통해 이러한 화합물이 Arg32 및 Ser36과 같은 주요 잔류물을 통해 기준 분자와 유사한 상호 작용을 형성하여 억제 잠재력을 향상시킬 수 있음을 보여주었습니다.


잠재적인 Hsp90-Cdc37 PPI 억제제의 식별 및 구조 분석

아래 그림 A에서 볼 수 있듯이, 알로스테릭 PPI 조절제 스크리닝에 AlphaPPIMI를 적용하는 것과 관련하여, 연구진은 HIV-1 gp120과 CD4의 상호작용을 예로 들었습니다. AlphaPPIMI는 예측 확률이 0.8보다 큰 화합물을 스크리닝했으며, 이 화합물의 화학적 공간은 알려진 활성 억제제와 상당히 겹쳤습니다. 아래 그림 BC에서 볼 수 있듯이, 비정형 계면 구조(PDB: 6L1Y)에 기반한 분자 도킹 결과는 후보 화합물이 THR51, LEU52, PHE53과 같은 주요 잔기와 상호작용할 수 있음을 보여주었습니다. 이는 AlphaPPIMI가 약물 개발이 어려운 PPI의 계면을 표적으로 하는 알로스테릭 억제제를 발굴할 수 있음을 시사하며, 관련 약물 개발에 새로운 접근법을 제시합니다.

gp120/CD4 PPI 억제제의 가상 스크리닝

산학연 협력으로 기초연구부터 임상적용까지 PPI 표적 약물 개발 촉진

PPI를 표적으로 하는 약물의 연구 개발에 있어서 학계와 산업계는 이 분야의 기초 연구를 점진적으로 임상 응용으로 발전시키기 위해 긴밀히 협력하고 있습니다.

학문적 최전선에서 많은 연구팀이 더욱 정확하고 효율적인 PPI 예측 및 타겟팅 방법을 탐구하고 있습니다.예를 들어, 스탠포드 대학의 한 팀은 Biomni라는 일반 생물의학 AI 에이전트를 개발했습니다.이 지능형 에이전트는 유전학, 유전체학, 미생물학, 약리학, 임상 의학 등 여러 생의학 분야에 걸쳐 복잡한 연구 과제를 자율적으로 수행할 수 있습니다. Biomni의 탄생은 생의학 연구 분야에서 AI가 도구 사용자에서 자율적인 의사 결정권자로 전환되는 전환점을 의미합니다. 분산된 과학 연구 자원을 실행 가능한 지능형 에이전트 기반 행동 단위로 통합함으로써, 기존 연구 프로세스의 단편화된 병목 현상을 극복할 뿐만 아니라 학제 간, 고처리량, 자율적인 과학적 발견 엔진의 출현을 촉진할 잠재력을 가지고 있습니다.

또 다른 대표적인 연구중산대학은 융합 특징 추출과 새로운 비지도 특징 선택 메커니즘을 기반으로 하는 PPIs 예측 방법을 제안했습니다.광범위한 실험을 통해 제안된 방법이 종내 및 종간 상호작용을 모두 포함하는 5개의 데이터셋에서 우수한 성능을 보였으며, 기존 머신러닝 방법 16개보다 훨씬 우수한 성능을 보였습니다. 본 연구는 대규모 PPI 예측 작업을 위한 효율적이고 신뢰할 수 있는 프레임워크를 제공할 뿐만 아니라, 광범위한 기능적 적응성을 보여주어 약물-약물 및 약물-식품 상호작용 예측에 대한 새로운 솔루션을 제시합니다.

산업 전환과 관련하여 기업들은 이러한 학문적 혁신을 임상으로 적극적으로 진출시키고 있습니다. 예를 들어, 중국 바이오 제약 기술 기업인 아들라이 노르티에(Adlai Nortye)가 노바티스(Novartis)의 글로벌 라이선스를 기반으로 개발한 AN2025(제네릭명 부파를리십(buparlisib))는 PI3K 신호 전달 경로를 특이적으로 표적으로 하는 범억제제입니다. 현재 항PD-1/PD-L1 치료에도 불구하고 진행된 재발성 또는 전이성 두경부 편평세포암 환자를 대상으로 하는 글로벌 3상 임상시험에 돌입했습니다.

또 다른 예로, 유명 프랑스 제약 회사 입센(Ipsen)이 출시한 이퀴르보(Iqirvo, 성분명: 엘라피브라노르)가 있습니다. 지난 10년 동안 승인된 최초의 새로운 원발성 담관암(PBC) 치료제로서, 이퀴르보는 비종양 분야에서 PPI 조절의 임상적 가치를 입증하고 복잡한 대사 질환에 대한 새로운 치료 패러다임을 제시했습니다. 이퀴르보의 승인은 또한 PPAR 패밀리 단백질 상호작용 네트워크에 대한 심층적인 연구를 촉진했습니다.

PPI 표적 약물 분야에서 학계와 산업계의 긴밀한 협력은 과학적 연구 결과를 임상적 가치로 전환하는 과정을 가속화했을 뿐만 아니라 신약 개발의 효율성과 성공률을 크게 향상시켰습니다. 다중 모드 AI 예측 모델부터 명확한 임상적 이점을 가진 약물 후보 물질에 이르기까지, 이러한 학제 간 협력은 생물의학 혁신의 방향을 새롭게 정의하고 있습니다. 앞으로 더 많은 데이터와 알고리즘이 통합되고 기관 간 및 학제 간 협력이 심화됨에 따라 PPI 표적 약물은 복잡한 질병 치료에 더욱 큰 혁신을 가져올 수 있을 것입니다.

참조 링크:
1.https://mp.weixin.qq.com/s/ryYJ6T7qEjnjvkhBL4-dAA
2.https://mp.weixin.qq.com/s/7upIPYam1LR0TiGBYXmkOw
3.https://mp.weixin.qq.com/s/69GU1R5lXHdTLttlT8apyw