싱가포르 국립대학교의 장양(Zhang Yang) 팀은 여러 벤치마크 테스트에서 SOTA를 능가하는 2세대 RNA 구조 예측 알고리즘을 개발했습니다.

RNA 분자의 구조와 기능을 이해하는 것은 분자생물학과 제약 산업의 핵심 연구 방향이었습니다. RNA, 특히 비번역 RNA(ncRNA)는 특정 구조로 접힐 수 있으며 유전자 조절(전사 및 번역 등), 촉매 작용, 생물학적 신호 전달, 스트레스 반응 등 다양한 세포 과정에서 중요한 역할을 합니다.
고처리량 시퀀싱 기술의 급속한 발전으로 RNA 시퀀스 데이터는 기하급수적으로 증가했지만, 알려진 시퀀스와 실험적으로 밝혀진 RNA 구조 간의 격차는 벌어지고 있습니다. 그러므로 RNA의 원자 구조를 순수한 서열에만 근거하여 밝히는 것이 점점 더 시급해지고 있습니다. 연구자들은 RNA 구조를 연구하기 위해 X선 결정학, 핵자기 공명 분광법, 극저온 전자 현미경(cryo-EM)과 같은 구조 생물학 기술을 포함하여 다양한 방법을 개발했습니다. 이러한 실험 기술은 더 높은 해상도를 제공할 수 있지만, RNA의 3차원 구조를 실험적으로 규명하는 것은 종종 비용이 많이 들고 어떤 경우에는 달성하기 어렵습니다. 그러므로,서열로부터 직접 고품질 RNA의 3차원 구조를 예측하는 계산적 방법에 대한 수요가 증가하고 있습니다.
"Ab initio RNA 구조 예측"이란 실험 데이터나 사전 지식에 의존하지 않고 RNA의 서열로부터 3차원 구조를 직접 예측하는 방법을 말합니다. 이 방법의 핵심은 컴퓨터 시뮬레이션과 계산화학 기술을 사용하여 수학적 모델과 알고리즘을 통해 RNA 분자의 3차원적 형태를 예측하는 것입니다.
최근 싱가포르 국립대학교의 장양 교수팀은 "Ab initio RNA 구조 예측"을 한 단계 더 발전시킨 최신 연구 결과를 발표했습니다.연구자들은 딥러닝을 기반으로 한 고정밀 RNA 구조 예측 프레임워크인 DRfold2를 제안했습니다.사전 훈련된 RNA 복합 언어 모델(RCLM)과 노이즈 제거 구조 모듈을 통합하여 종단 간 RNA 구조 예측을 수행합니다. DRfold2는 여러 벤치마크에서 다른 최첨단 방법에 비해 글로벌 토폴로지와 2차 구조 예측 모두에서 우수한 성능을 보였습니다.
자세한 분석 결과, 이러한 개선은 주로 RCLM이 공진화 패턴을 포착하는 능력과 효율적인 잡음 제거 프로세스에서 비롯된 것으로 나타났습니다.이를 통해 DRfold2의 비지도 접촉 예측 정확도가 기존 방식보다 100% 이상 향상되었습니다.
관련 결과는 "복합 언어 모델과 잡음 제거된 엔드투엔드 학습을 통한 이니티오 RNA 구조 예측"이라는 제목으로 사전 인쇄 플랫폼 bioRxiv에 게재되었습니다.
연구 하이라이트:
* DRfold2는 종단간 RNA 구조 예측을 위해 사전 훈련된 RNA 복합 언어 모델(RCLM)과 잡음 제거 구조 모듈을 통합합니다.
* 복합 언어 모델링, 노이즈 제거 기반 엔드투엔드 학습, 딥러닝 기반 사후 최적화의 독특한 조합을 통해 DRfold2는 "Ab initio RNA 구조 예측"에 대한 새로운 방향을 제시합니다.
* DRfold2는 AlphaFold3와 매우 보완적이며 최적화 프레임워크에 통합된 후 통계적으로 유의미한 정확도 향상을 달성합니다.

서류 주소:
https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1
DRfold2 RNA 구조 테스트 데이터세트 다운로드:
데이터 세트: 독립적인 테스트 데이터 세트 구축
DRfold2의 성능을 객관적으로 평가하기 위해서는연구진은 28개의 RNA 구조를 포함하는 독립적인 테스트 데이터 세트를 구축했습니다.이들의 시퀀스 길이는 모두 400nt 미만이며 다음 세 가지 범주에 속합니다.
* 최신 RNA-퍼즐 타겟 시퀀스
* CASP15 경쟁에서의 RNA 표적 서열
* 2024년 8월 1일 기준 Protein Data Bank(PDB) 데이터베이스에 가장 최근에 발표된 RNA 구조
연구진은 특히 자연에서 발견되는 RNA 구조와 다르기 때문에 CASP15 데이터 세트에서 대규모 합성 RNA 구조를 제외했습니다. 자연에서 발견되는 RNA 구조는 기능 분석과 약물 설계의 주요 초점입니다.
엄격한 모델 평가를 보장하기 위해 훈련 세트에는 2024년 이전에 발표된 RNA 구조만 포함되고, 테스트 데이터 세트와 서열 유사성이 80% 이상인 RNA는 제외됩니다.
DRfold2 RNA 구조 테스트 데이터세트 다운로드:
모델 아키텍처: 새로운 RNA 3D 구조 예측 파이프라인 DRfold2
DRfold2는 (1) RNA 복합 언어 모델(RCLM), (2) RNA 변환기 블록, (3) 노이즈 제거 구조 모듈, (4) CSOR 프로토콜을 통한 최종 모델 선택 및 최적화라는 4가지 핵심 모듈로 구성된 새로운 RNA 3D 구조 예측 파이프라인입니다(아래 그림 A 참조).

입력 RNA 시퀀스로 시작하여,DRfold2는 먼저 사전 훈련된 RNA 복합 언어 모델(RCLM)을 사용하여 쿼리 시퀀스를 인코딩합니다.시퀀스 표현(Seq Rep)과 쌍 표현(Pair Rep)을 생성합니다. RCLM은 아래 그림 B에서 볼 수 있듯이, 보다 효율적인 시퀀스 패턴 인식을 달성하기 위해 복합 우도 극대화 방법을 통해 대규모 비지도 시퀀스 데이터에서 학습됩니다.

이러한 시퀀스와 쌍을 이룬 표현은 RNA 구조 접힘에 필요한 주요 특징 표현을 생성하기 위한 처리를 위해 RNA 변환기 모듈에 입력됩니다(아래 그림 C 참조).

다음으로, DRfold2는 아래 그림 D에 표시된 것처럼, RNA 구조를 종단 간 방식으로 생성하기 위해 Denoising RNA Structure Module(DRSM)을 사용합니다.

최종 RNA 구조 모델은 그림 E에서 볼 수 있듯이 여러 체크포인트에서 생성된 형태 집합에서 최상의 모델을 선택하고 개선하기 위해 후처리 CSOR 프로토콜을 통해 검토 및 최적화됩니다.

DRfold2는 이 팀의 이전 DRfold 방식과 비슷한 이름을 가지고 있지만, 완전히 다른 프레임워크를 기반으로 상당한 발전을 이루었습니다.가장 중요한 것은 복합 언어 모델을 통합한 것인데, 이를 통해 RNA 시퀀스와 쌍 표현 능력이 크게 향상되었습니다.또한 예측 파이프라인은 노이즈 제거 RNA 구조 모듈(DRSM)을 통합하는데, 이는 제어된 섭동 전략을 사용하여 노이즈가 많은 RNA 형태를 효율적으로 교정하여 구조적 변환을 견고하게 학습합니다.
연구진은 DRfold2 온라인 서버와 로컬 코드를 다음 위치에서 공개적으로 사용할 수 있도록 했습니다.
https://zhanglab.comp.nus.edu.sg/DRfold2
연구 결과: DRfold2는 여러 벤치마크에서 다른 최첨단 방법보다 우수한 성능을 보였습니다.
연구진은 먼저 DRfold2를 RNAComposer(조각 조립 및 최적화 기반), trRosettaRNA(딥러닝 방법), RhoFold(엔드투엔드 딥러닝 방법), RoseTTAFoldNA(엔드투엔드 딥러닝 방법), DeepFoldRNA(딥러닝 방법)를 포함한 최첨단 RNA 구조 예측 방법 5가지와 비교했습니다.
아래 그림에서 보듯이, 연구진은 다양한 서열 유사도 임계값(50%-80%)에서 DRfold2와 벤치마크 방법의 TM-점수와 RMSD 평가 결과를 비교했습니다. 이 중 TM-점수는 예측된 RNA 구조의 전반적인 품질을 평가하는 데 사용되는 길이에 독립적인 점수 함수입니다. 값의 범위는 0-1입니다. 값이 높을수록 예측된 구조와 실제 구조 사이의 유사성이 높아집니다.

결과는 DRfold2가 모든 시퀀스 유사성 임계값에서 항상 가장 높은 평균 TM 점수를 얻는다는 것을 보여줍니다.예를 들어:
* 80% 유사도 임계값에서 DRfold2의 평균 TM 점수는 0.351로, 2위를 차지한 DeepFoldRNA(TM 점수=0.296)보다 18.6% 더 높습니다.
* 50% 유사도 임계값(가장 엄격한 테스트 세트)에서 DRfold2는 여전히 평균 TM 점수 0.269를 얻을 수 있으며, 이는 2위를 차지한 RoseTTAFoldNA(TM 점수=0.229)보다 17.5% 더 높습니다.
* 또한, 모든 서열 유사성 임계값에서 DRfold2의 RMSD(제곱평균제곱근편차)는 항상 모든 대조 방법의 RMSD보다 낮아 예측된 구조가 실제 RNA 구조에 더 가깝다는 것을 나타냅니다.
연구진은 또한 침팬지 CPEB3 HDV 유사 리보자임(PDB ID: 7QR3)을 예로 들었습니다. RNA는 69개 뉴클레오티드로 구성되어 있으며, 다양한 방법이 RNA 3차 구조에 미치는 예측 효과를 분석했습니다. 결과는 다음과 같습니다.

* DRfold2는 TM 점수 0.586, RMSD 2.77Å로 리보자임의 전반적인 위상 구조를 정확하게 포착했습니다.
* DeepFoldRNA는 전반적인 나선형 배열 측면에서는 좋은 성능을 보였지만 헤어핀 루프의 방향이 크게 벗어나 RMSD가 최대 5.68Å로 DRfold2의 편차의 두 배에 달했습니다.
* RhoFold와 RoseTTAFoldNA는 접합 영역에서 공간 예측 오류가 더 커서 TM 점수가 0.323과 0.285로 떨어졌습니다.
* 타겟 RNA와 훈련 데이터 세트 간의 가장 높은 서열 유사도는 60.9%에 불과하며, 이는 DRfold2가 상동 템플릿이 없는 경우에도 새로운 RNA 서열에 대한 신뢰할 수 있는 구조 예측을 제공할 수 있음을 나타냅니다.
이러한 결과는 다음을 보여줍니다.RCLM과 같은 고차 언어 모델이 제공하는 포괄적인 확률적 표현은 공진화 패턴과 공간적 제약을 학습하는 능력을 크게 향상시킵니다.따라서 DRfold2의 엔드투엔드 네트워크를 통해 더욱 정확한 3D RNA 구조 모델링이 달성되었습니다.
이를 바탕으로 연구진은 RNA 3D 구조 예측에서 DRfold2와 AlphaFold3의 성능을 비교하기 위해 테스트 세트의 RNA 시퀀스를 AlphaFold 서버에 제출하고 기본 시드 구성을 사용하여 AlphaFold3의 예측 구조를 얻었습니다. 나오다,DRfold2의 평균 TM 점수(0.351)와 RMSD(14.6 Å)는 AlphaFold3(0.345 및 16.0 Å)보다 약간 높습니다.
더욱 언급할 가치가 있는 점은 DRfold2와 AlphaFold3가 전반적으로 비슷한 성능을 보이지만, 아래 그림의 결과는 두 모델 간의 강력한 상호 보완성을 강조한다는 점입니다. 특히 예측이 대각선에서 크게 벗어날 때 더욱 그렇습니다.연구진은 AlphaFold3의 예측을 DRfold2 최적화 프레임워크에 추가 잠재적 함수 항목으로 통합하여 TM 점수와 RMSD 모두에서 통계적으로 유의미한 개선을 달성했습니다.

장양 교수 연구팀은 수년간 AI와 계산생물학 연구에 집중해 왔습니다.
이 연구에서 제안된 DRfold2는 실제로 장양 교수 팀에서 이전에 제안한 DRfold 모델의 업그레이드 버전입니다.
2023년 9월, 장양 교수 팀은 Nature Communications 저널에 "RNA 구조 예측을 위한 심층적 기하학적 퍼텐셜과 엔드투엔드 학습 통합"이라는 제목의 논문을 발표했습니다.
이 연구에서는 RNA의 3차원 구조를 정확하게 예측하는 새로운 기술인 DRfold를 보고합니다.핵심 혁신은 FAPE 잠재력과 기하학적 잠재력이라는 두 가지 상호 보완적인 잠재 에너지 함수를 도입한 데 있습니다.이들은 두 개의 독립적인 Transformer 네트워크를 통해 훈련을 받았으며, 이를 통해 RNA 구조 예측을 위한 심층 학습 잠재력을 갖추게 되었습니다. 계산 결과에 따르면, 기존의 RNA 구조 컴퓨터 예측 방법과 비교했을 때 DRfold는 여러 성능 지표에서 이러한 방법을 능가합니다.

서류 주소:
https://www.nature.com/articles/s41467-023-41303-9
DRfold에서 DRfold2에 이르기까지, 장양 교수의 팀은 수년간 인공지능과 계산생물학 연구에 집중해 왔습니다. 그의 연구실은 딥러닝을 기반으로 단백질 및 RNA 구조 예측 연구를 수행한 최초의 연구실 중 하나입니다. 미국 슬론상, 미국 국립과학재단 경력상, 미시간 대학교 기초과학연구상 등의 상을 수상했습니다. 2015년부터 톰슨 로이터/클래리베이트 애널리틱스가 선정한 세계적 과학자 목록에 7번이나 선정되었습니다. 그의 연구실에서 개발한 I-TASSER 알고리즘(https://zhanggroup.org/I-TASSER/), 2006년부터 9회 연속으로 전 세계 CASP 실험에서 가장 정확한 자동 단백질 구조 예측 방법으로 평가되었습니다.
2024년 1월 2일, 장양 교수 연구팀은 Nature Methods 저널에 "막대한 메타게놈 데이터를 활용한 DeepMSA2를 활용한 딥러닝 단백질 단량체 및 복합 구조 예측 개선"이라는 제목의 논문을 발표했습니다.
이 연구에서는 단백질 상호작용의 구조적 예측 정확도를 높이기 위해 두 가지 새로운 소프트웨어를 개발했습니다. 저자들은 재귀적 동적 프로그래밍과 히든 마르코프 모델 알고리즘을 사용하여 방대한 메타게놈 시퀀스 라이브러리에서 고품질 MSA 데이터를 빠르게 추출하는 DeepMSA2를 개발했으며, 그 후 새로 개발된 DMFold 소프트웨어를 사용하여 단백질 복합체의 3차원 구조를 구성했습니다.
실험 결과에 따르면 단백질 복합체에 대한 DMFold/DeepMSA2의 구조 예측 정확도는 AlphaFold2와 같은 알고리즘보다 훨씬 더 뛰어난 것으로 나타났습니다. 특히, DMFold(https://zhanggroup.org/DMFold) 알고리즘은 최신 단백질 구조 예측 대회(CASP15)에서 단백질 복합체 구조 예측 부문에서 우승을 차지했습니다.

서류 주소:
https://www.nature.com/articles/s41592-023-02130-4
최근 연구팀은 RNA와 짧은 펩타이드의 설계 및 구조 예측을 포함하도록 연구 방향을 더욱 확대했으며, 약물 설계와 관련된 주제도 탐구했습니다. 저는 장양 교수님이 앞으로도 그의 팀을 이끌어 생물학의 신비를 탐구하실 것이라고 믿습니다.
참고문헌:
1.https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1
2.https://mp.weixin.qq.com/s/X_VJ-WOWEP08p5GAJOgq9A