Ensemble De Données De Test De Structure D'arn DRfold2
Date
URL de publication
Catégories
*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
L'ensemble de données DRfold2 a été créé par l'équipe du professeur Zhang Yang à l'Université nationale de Singapour en 2025. L'article associé est intitulé «Ab initio Prédiction de la structure de l'ARN avec un modèle de langage composite et un apprentissage de bout en bout débruité". L'ensemble de données est un ensemble de données de test indépendant construit pour évaluer objectivement les performances de DRfold2 dans cette étude.
Il contient 28 structures d'ARN avec une longueur de séquence inférieure à 400 nt et appartenant aux 3 catégories suivantes :
- Les dernières séquences cibles des énigmes de l'ARN
- Séquences cibles d'ARN dans la compétition CASP15
- Les structures d'ARN les plus récemment publiées dans la base de données Protein Data Bank (PDB) au 1er août 2024
Il est à noter que les chercheurs ont exclu les grandes structures d’ARN synthétiques de l’ensemble de données CASP15 car elles s’écartent des structures d’ARN trouvées dans la nature, qui sont au centre de l’analyse fonctionnelle et de la conception de médicaments.
Afin de garantir une évaluation rigoureuse du modèle, l'ensemble de formation ne contient que des structures d'ARN publiées avant 2024 et exclut les ARN dont la similarité de séquence est supérieure à 80% avec l'ensemble de données de test.