HyperAI

DRfold2-RNA-Strukturtestdatensatz

Datum

vor einem Monat

Organisation

Nationale Universität von Singapur

Veröffentlichungs-URL

zhanglab.comp.nus.edu.sg

Download-Hilfe

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Der DRfold2-Datensatz wurde 2025 vom Team von Professor Zhang Yang an der National University of Singapore erstellt. Das zugehörige Papier trägt den Titel „Ab initio RNA-Strukturvorhersage mit zusammengesetztem Sprachmodell und rauschfreiem End-to-End-Lernen". Der Datensatz ist ein unabhängiger Testdatensatz, der erstellt wurde, um die Leistung von DRfold2 in dieser Studie objektiv zu bewerten.

Es enthält 28 RNA-Strukturen mit einer Sequenzlänge von weniger als 400 nts und aus den folgenden 3 Kategorien:

  • Neueste RNA-Puzzles Zielsequenzen
  • RNA-Zielsequenzen im CASP15-Wettbewerb
  • Die zuletzt veröffentlichten RNA-Strukturen in der Protein Data Bank (PDB)-Datenbank mit Stand vom 1. August 2024

Bemerkenswerterweise schlossen die Forscher große synthetische RNA-Strukturen aus dem CASP15-Datensatz aus, da diese von in der Natur vorkommenden RNA-Strukturen abweichen, die im Mittelpunkt der Funktionsanalyse und des Arzneimitteldesigns stehen.

Um eine strenge Modellbewertung zu gewährleisten, enthält der Trainingssatz nur RNA-Strukturen, die vor 2024 veröffentlicht wurden, und schließt RNAs mit einer Sequenzähnlichkeit von mehr als 80% zum Testdatensatz aus.