DRfold2 RNA 구조 테스트 데이터 세트
*이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
DRfold2 데이터 세트는 2025년 싱가포르 국립대학교의 Zhang Yang 교수 팀에 의해 생성되었습니다. 관련 논문의 제목은 "처음부터 복합 언어 모델과 잡음 제거된 엔드투엔드 학습을 통한 RNA 구조 예측". 이 데이터 세트는 본 연구에서 DRfold2의 성능을 객관적으로 평가하기 위해 구축된 독립적인 테스트 데이터 세트입니다.
여기에는 서열 길이가 400nt 미만인 RNA 구조 28개가 포함되어 있으며 다음 3가지 범주에 속합니다.
- 최신 RNA 퍼즐 타겟 시퀀스
- CASP15 경쟁에서의 RNA 표적 서열
- 2024년 8월 1일 기준 단백질 데이터 뱅크(PDB) 데이터베이스에 가장 최근에 발표된 RNA 구조
연구진은 특히 자연에서 발견되는 RNA 구조와 다르기 때문에 CASP15 데이터 세트에서 대규모 합성 RNA 구조를 제외했습니다. 자연에서 발견되는 RNA 구조는 기능 분석과 약물 설계의 주요 초점입니다.
엄격한 모델 평가를 보장하기 위해 훈련 세트에는 2024년 이전에 발표된 RNA 구조만 포함되고, 테스트 데이터 세트와 서열 유사성이 80% 이상인 RNA는 제외됩니다.