DRfold2 RNA 结构测试数据集
*该数据集支持在线使用,点击此处跳转。
DRfold2 数据集为新加坡国立大学张阳教授团队于 2025 年创建的,相关论文成果为「Ab initio RNA structure prediction with composite language model and denoised end-to-end learning」。数据集是为了客观评估研究中 DRfold2 的性能而构建的独立测试数据集。
其中包含 28 种 RNA 结构,它们的序列长度均小于 400 nts,并来源于以下 3 个类别:
- 最新的 RNA-Puzzles 目标序列
- CASP15 竞赛中的 RNA 目标序列
- 截至 2024 年 8 月 1 日,Protein Data Bank (PDB) 数据库中最新发布的 RNA 结构
值得注意的是,研究人员排除了 CASP15 数据集中大型合成 RNA 结构,因为它们偏离了自然界中的 RNA 结构,而自然 RNA 结构是功能分析和药物设计的主要研究对象。
为了保证严格的模型评估,训练集仅包含 2024 年之前发布的 RNA 结构,并且排除了与测试数据集序列相似度超过 80% 的 RNA 。