HyperAI超神经

DRfold2 RNA 结构测试数据集

日期

1 个月前

机构

National University of Singapore
下载帮助

*该数据集支持在线使用,点击此处跳转

DRfold2 数据集为新加坡国立大学张阳教授团队于 2025 年创建的,相关论文成果为「Ab initio RNA structure prediction with composite language model and denoised end-to-end learning」。数据集是为了客观评估研究中 DRfold2 的性能而构建的独立测试数据集。

其中包含 28 种 RNA 结构,它们的序列长度均小于 400 nts,并来源于以下 3 个类别:

  • 最新的 RNA-Puzzles 目标序列
  • CASP15 竞赛中的 RNA 目标序列
  • 截至 2024 年 8 月 1 日,Protein Data Bank (PDB) 数据库中最新发布的 RNA 结构

值得注意的是,研究人员排除了 CASP15 数据集中大型合成 RNA 结构,因为它们偏离了自然界中的 RNA 结构,而自然 RNA 结构是功能分析和药物设计的主要研究对象。

为了保证严格的模型评估,训练集仅包含 2024 年之前发布的 RNA 结构,并且排除了与测试数据集序列相似度超过 80% 的 RNA 。