AAAI 2025에 선정되었습니다! 청화대/UCL은 친화도 예측을 결합하여 SOTA를 새롭게 하는 단백질-RNA 언어 모델 융합 솔루션을 개척했습니다.

알츠하이머병, 파킨슨병, 간질... 이러한 "악명 높게 무서운" 신경퇴행성 질환은 노인의 건강을 눈에 띄지 않게 죽이는 질병이며, 이러한 질병의 발생은 종종 단백질과 RNA의 비정상적인 결합과 관련이 있습니다.
생물의학 분야에서 단백질-RNA 결합을 연구하는 것은 매우 중요합니다. 왜냐하면 단백질-RNA 결합은 유전자 발현 조절, RNA 처리 및 스플라이싱, 번역 조절, 세포 스트레스 반응 등 여러 생물학적 과정에서 중심적인 역할을 하기 때문입니다.단백질-RNA 결합 메커니즘을 이해하는 것은 복잡한 유전자 조절 과정을 밝히고 질병의 유전적 기초를 분석하는 데 중요합니다. 동시에 단백질-RNA 상호작용은 RNA 표적 치료에도 중요한 응용 분야를 갖고 있어 암, 유전 질환, 바이러스성 질환 치료에 새로운 방향을 제시합니다.
최근, 세계 최고의 인공지능 컨퍼런스인 제39회 AAAI 인공지능 컨퍼런스(AAAI 2025)에서 발표된 선정된 성과 중,청화대학교, 런던대학교, 모나쉬대학교, 베이징우편통신대학교의 공동팀제안하다CoPRA 모델은 업계에서 폭넓은 주목을 받았으며 구술 시험 단계로 선택되었습니다.
이는 단백질-RNA 결합 친화도 예측을 위해 복잡한 구조적 아키텍처를 통해 단백질 언어 모델(PLM)과 RNA 언어 모델(RLM)을 결합하려는 최초의 시도입니다.CoPRA의 성능을 테스트하기 위해 연구진은 여러 데이터 소스에서 가장 큰 단백질-RNA 결합 친화도 데이터 세트를 수집하고 3개 데이터 세트에서 모델 성능을 평가했습니다. 결과는 CoPRA가 다양한 데이터 세트에서 최첨단 성능을 달성했다는 것을 보여주었습니다.
관련 결과는 "CoPRA: 단백질-RNA 결합 친화도 예측을 위한 복잡한 구조를 가진 교차 도메인 사전 학습된 시퀀스 모델 연결"이라는 제목으로 arXiv에 사전 인쇄본으로 게재되었습니다.

서류 주소:
https://arxiv.org/abs/2409.03773
CoPRA 창고 주소:
https://github.com/hanrthu/CoPRA
오픈소스 프로젝트인 "awesome-ai4s"는 200개 이상의 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
생물의학 연구는 단백질-RNA 상호 작용을 계속해서 발전시키고 있습니다.
지난 몇 년 동안 생물의학 분야 연구자들은 단백질-RNA 상호작용에 대한 연구를 멈추지 않고 상당한 진전을 이루었습니다.
CLIP 실험 기술은 RNA 연구에서 가장 중요한 기술 중 하나입니다. 이는 전사체 전체에서 RNA 결합 단백질(RBP)의 결합 지도를 분석할 수 있으며, RBP의 기능과 조절 메커니즘을 체계적으로 이해하는 기초가 됩니다. 하지만 CLIP 실험은 시간과 노동력이 많이 소요되며, 한 번에 특정 세포 환경에서 특정 RBP의 RNA 결합 부위만 제공할 수 있으며, 실험 재료에 대한 요구 사항도 높습니다. 그러나 단백질과 RNA의 결합은 세포 환경의 변화에 따라 크게 변할 수 있지만, RNA에 대한 단백질의 조절을 연구하려면 동일한 세포 환경에서의 결합 정보가 필요합니다.
다양한 세포 환경에서 RBP 결합의 동적 변화 문제를 해결하기 위해,2021년 2월, 청화대학교 구조생물학 첨단혁신센터의 장창펑 연구진은 Cell Research 저널에 "생체 내 RNA 구조를 이용한 딥러닝을 통한 동적 세포 단백질-RNA 상호작용 예측"이라는 제목의 연구 결과를 발표했습니다. 본 연구에서는 icSHAPE 실험을 이용하여 7가지 흔한 세포 유형의 RNA 2차 구조 지도를 분석하고, 실험을 통해 얻은 세포 내 RNA 구조와 해당 세포 환경의 RBP 결합 정보를 통합하는 인공지능 알고리즘을 개발하였으며, 세포 내 RNA 구조 정보를 기반으로 세포 내 RBP의 동적 결합을 예측하는 새로운 방법인 PrismNet을 확립했습니다.
단백질-RNA 결합 친화도를 예측하기 위해 업계에서는 여러 가지 계산 방법이 제안되었습니다.시퀀스 기반 방법과 구조 기반 방법이 포함됩니다. 시퀀스 기반 방법은 서로 다른 시퀀스 인코더를 사용하여 단백질과 RNA 시퀀스를 별도로 처리한 후 이들 간의 상호 작용을 모델링합니다. 그러나 이러한 접근 방식의 성능은 종종 제한되는데, 그 이유는 결합 친화도가 주로 결합 인터페이스의 구조에 의해 결정되기 때문입니다. 최근에 제안된 다른 방법은 에너지와 접촉 거리와 같은 결합 계면의 구조적 특징을 추출하는 데 초점을 맞춥니다. 연구자들은 추출된 특징을 바탕으로 친화도 예측을 위한 구조 기반 머신 러닝 접근법을 개발했습니다. 그러나 데이터 세트 크기의 제한으로 인해 이러한 방법은 새로운 샘플에 대한 일반화 능력이 제한적이며 기능 엔지니어링에 크게 의존합니다.
인공지능 기술의 발전으로 많은 단백질 언어 모델(PLM)과 RNA 언어 모델(RLM)이 개발되었으며, 이는 다양한 하위 작업에서 뛰어난 성능과 일반화 기능을 보여주었습니다.동시에 단백질/RNA의 3차원 구조는 그 기능을 이해하는 데 필수적이므로 구조 정보를 언어 모델에 통합하는 것도 새로운 추세가 되었습니다.
예를 들어, 미주리 대학, 켄터키 대학, 앨라배마 대학의 팀은 다관점 비교 학습 기술을 사용하여 주요 단백질 구조 정보를 단백질 언어 모델에 통합했습니다. 이 개념을 바탕으로 연구팀은 단백질의 3D 구조 정보를 인식할 수 있는 단백질 언어 모델인 S-PLM을 개발했습니다. S-PLM은 다양한 단백질 예측 작업에서 뛰어난 성능을 보여줍니다. 가벼운 튜닝 도구를 사용하여 학습한 후, S-PLM의 성능은 단백질 기능 예측, 효소 반응 유형 예측, 2차 구조 예측과 같은 작업에서 최신 기술을 능가하거나 그 이상의 성능을 보입니다. 관련 연구는 "S-PLM: 서열과 구조 간의 대조 학습을 통한 구조 인식 단백질 언어 모델"이라는 제목으로 bioRxiv에 게재되었습니다.
그러나 최근 업계 연구에서는 대화형 작업에서 구조적 정보에 기반한 생물학적 언어 모델의 엄청난 잠재력이 입증되었지만, 다양한 생물학 분야에서 미리 훈련된 모델을 결합한 연구는 여전히 드뭅니다.청화대학교, 런던대학교, 모나쉬대학교, 베이징우정대학교가 공동으로 제안한 CoPRA에서는 단백질과 RNA 언어 모델을 복잡한 구조 정보와 결합하여 단백질-RNA 결합 친화도를 예측하려는 시도가 처음으로 이루어졌습니다.
CoPRA를 구축하기 위한 경량 Co-Former 모델 설계
전반적으로 CoPRA 모델의 구성 과정은 다음 그림과 같습니다.

첫 번째,연구진은 각각 PLM과 RLM에 단백질과 RNA 시퀀스를 입력한 다음, 두 언어 모델의 출력에서 상호작용 인터페이스의 임베딩을 선택하여 이후 교차 모달 학습을 위한 시퀀스 임베딩으로 사용했습니다. 동시에 상호작용 인터페이스에서 구조적 정보(인터페이스 기능)를 쌍으로 임베딩하여 추출합니다.
그 다음에,연구진은 복잡한 구조 정보를 가진 두 언어 모델의 인터페이스 시퀀스 임베딩을 결합하여 구조-시퀀스 융합 모듈을 형성하는 가벼운 Co-Former 모델을 설계했습니다. 구체적으로, Co-Former는 구조 기반 멀티 헤드 자기 주의와 외적 모듈을 통해 1D 및 쌍별 임베딩을 융합하고, 작업 종속 주의 마스크를 적용합니다. Co-Former의 출력 특수 노드와 쌍을 이루는 임베딩은 두 가지 사전 학습 작업과 두 가지 하위 친화성 작업을 포함한 다양한 작업에 따라 사용됩니다.
연구자들은 또한 Co-Former에 대한 이중 범위 사전 훈련 전략을 제안했습니다.원자 수준의 정확도로 학습된, 거친 단위의 대조 상호작용 분류(CPRI)와 세밀한 단위의 인터페이스 거리 예측(MIDM)을 모델링합니다.
CoPRA 및 기타 모델의 성능을 평가하려면연구자들은 통합된 주석 표준 데이터 세트가 부족하다는 문제를 해결해야 합니다. 그래서 그들은 PDBbind, PRBABv2, ProNAB의 세 가지 공개 데이터 세트에서 샘플을 수집하고, 가장 큰 단백질-RNA 결합 친화도 데이터 세트인 PRA310을 편집하고, PRA310과 PRA201 데이터 세트에서 단백질-RNA 결합 친화도를 예측하는 모델의 능력을 평가했습니다.
*PRA201 데이터 세트: PRA310의 하위 세트, 각 복합체는 단백질 사슬 하나와 RNA 사슬 하나만 포함하며 더 엄격한 길이 제한을 갖습니다.
CoPRA는 단백질-RNA 결합 친화도 예측에 가장 우수한 성능을 보입니다.
아래 표에서 볼 수 있듯이, CoPRA의 새롭게 훈련된 버전은 PRA310 데이터 세트에서 가장 좋은 성능을 달성합니다. 게다가 LM 임베딩을 입력으로 사용하는 대부분의 방법은 다른 방법보다 성능이 뛰어나 사전 학습된 단일 모드 LM을 결합하여 친화도 예측을 수행할 수 있는 엄청난 잠재력이 있음을 보여줍니다.

그런 다음 연구자들은 컴파일된 비지도 학습 데이터 세트 PRI30k를 사용하여 모델을 사전 학습시켰고, 두 데이터 세트 모두에서 모델의 전반적인 성능을 크게 향상시켰습니다. PRA310 데이터 세트에서 CoPRA는 RMSE가 1.391, MAE가 1.129, PCC가 0.580, SCC가 0.589를 달성했는데, 이는 두 번째로 좋은 모델인 CoPRA(처음부터 학습)보다 훨씬 더 우수합니다. PredPRBA와 DeepNAP은 단백질-RNA 쌍 친화도 예측을 지원합니다. 연구자들은 PRA201 데이터 세트에서 이러한 방법의 성능을 비교하였고, 최소 100개의 PRA201 샘플이 훈련 세트에 나타났음에도 불구하고 PRA201에서의 성능이 보고된 결과보다 상당히 낮았음을 보여주었습니다. 이는 이러한 방법의 일반화 능력이 좋지 않음을 나타냅니다.
CoPRA는 돌연변이가 결합 친화도에 미치는 영향을 예측하는 데 더 강력하며 일반화 능력이 뛰어납니다.
연구진은 모델의 친화성에 대한 세부적인 이해를 더욱 평가하기 위해 모델을 변경하여 단백질의 단일점 돌연변이가 단백질-RNA 복합체에 미치는 영향을 예측했습니다. 연구진은 단백질 돌연변이 효과 예측에 관한 관련 연구를 참조하여 각 복합 레벨에서 지표를 평균화하고 PRI30k에서 사전 학습하고 PRA310에서 튜닝한 후 CoPRA의 제로샷 및 미세 튜닝 성능을 평가했습니다.
아래 표에서 보듯이, mCSM의 교차 검증 세트를 사용하여 미세 조정을 한 후, 본 연구에서 제안한 모델은 RMSE가 0.957, MAE가 0.833, PCC가 0.550, SCC가 0.570으로 4가지 지표 모두에서 다른 모델을 능가했습니다.

이러한 우수한 성능은 돌연변이 복합 구조를 발견하지 못했음에도 불구하고 이중 사전 학습 목표에서 비롯된 것이며, 다양한 친화성 관련 작업에 대한 CoPRA의 일반화 능력을 보여줍니다.
다중 모드 단백질 언어 모델의 획기적인 진전
위에서 소개한 연구 아이디어의 본질은 단백질과 RNA와 같은 여러 생물학적 모달리티를 복잡한 구조 정보와 결합하는 것, 즉 다중 모달 학습이라고 하는 것입니다. 간단히 말해서, 멀티모달 학습은 딥러닝 프레임워크 하에 다양한 유형의 데이터를 하나의 모델로 통합하는 과정입니다.
지난 몇 년 동안 대규모 언어 모델이 급속히 개발되면서 연구자들은 단백질 과학 분야에 이를 적용하여 단백질의 기능, 구조, 특성을 정확하게 이해하고 예측하려고 시도하기 시작했습니다. 그러나 이전의 단백질 중심의 대규모 언어 모델은 주로 아미노산 서열을 텍스트로 처리했기 때문에 단백질의 풍부한 구조적 정보를 충분히 활용하지 못했습니다.오늘날 다중 모드 학습의 발전으로 인해 관련 연구에 대한 새로운 아이디어가 점점 더 많이 제공되었습니다.
예를 들어, 약물 연구 및 개발 분야에서 단백질과 리간드 간의 결합 친화도를 정확하고 효과적으로 예측하는 것은 약물 스크리닝 및 최적화에 매우 중요합니다. 그러나 이전 연구에서는 단백질-리간드 상호작용에서 분자 표면 정보가 차지하는 중요한 역할을 고려하지 않았습니다. 이를 바탕으로,샤먼 대학의 연구원들은 새로운 다중 모드 기능 추출(MFE) 프레임워크를 제안했습니다.이 프레임워크는 처음으로 단백질 표면, 3D 구조 및 서열에 대한 정보를 결합하고, 교차 주의 메커니즘을 사용하여 서로 다른 모달리티 간의 특징을 정렬합니다. 실험 결과에 따르면 이 방법은 단백질-리간드 결합 친화도를 예측하는 데 있어 최첨단 성능을 달성했습니다. 관련 연구는 2024년 6월 Bioinformatics에 "표면 기반 다중 모드 단백질-리간드 결합 친화도 예측"이라는 제목으로 게재되었습니다.
2024년 12월, 화동사범대학과 다른 기관의 연구팀은 혁신적인 솔루션인 EvoLLama를 제안했습니다.이는 다중 모드 융합을 위한 단백질 구조 인코더, 시퀀스 인코더 및 대규모 언어 모델을 통합하는 프레임워크입니다. EvoLLama는 제로샷 설정에서 강력한 일반화 역량을 보여주며, 다른 미세 조정된 기준 모델의 성능을 1%~8%만큼 향상시키고, 현재 최첨단 지도 미세 조정 모델의 평균 성능을 6%만큼 능가합니다. 관련 연구 결과는 "EvoLlama: 다중 모드 구조와 서열 표현을 통한 LLM의 단백질 이해 향상"이라는 제목으로 arXiv에 사전 인쇄본으로 게재되었습니다.
물론, 다중 모드 학습은 이용 가능한 연구 옵션 중 하나일 뿐입니다. 앞으로는 기계 학습 방법을 더 많이 사용하여 단백질 표면을 연구하면 생물학자들은 단백질이 다른 생물학적 분자와 어떻게 상호 작용하는지 더 깊이 이해할 수 있고, 이를 통해 새로운 약물 개발에 도움을 줄 수 있습니다.
참고문헌:
1.https://arxiv.org/abs/2409.03773
2.https://www.frcbs.tsinghua.edu.cn/index.php?c=show&id=873
3.https://www.sohu.com/a/846589543_121124715