DRfold2-RNA-Strukturtestdatensatz
Datum
Veröffentlichungs-URL
Kategorien
*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der DRfold2-Datensatz wurde 2025 vom Team von Professor Zhang Yang an der National University of Singapore erstellt. Das zugehörige Papier trägt den Titel „Ab initio RNA-Strukturvorhersage mit zusammengesetztem Sprachmodell und rauschfreiem End-to-End-Lernen". Der Datensatz ist ein unabhängiger Testdatensatz, der erstellt wurde, um die Leistung von DRfold2 in dieser Studie objektiv zu bewerten.
Es enthält 28 RNA-Strukturen mit einer Sequenzlänge von weniger als 400 nts und aus den folgenden 3 Kategorien:
- Neueste RNA-Puzzles Zielsequenzen
- RNA-Zielsequenzen im CASP15-Wettbewerb
- Die zuletzt veröffentlichten RNA-Strukturen in der Protein Data Bank (PDB)-Datenbank mit Stand vom 1. August 2024
Bemerkenswerterweise schlossen die Forscher große synthetische RNA-Strukturen aus dem CASP15-Datensatz aus, da diese von in der Natur vorkommenden RNA-Strukturen abweichen, die im Mittelpunkt der Funktionsanalyse und des Arzneimitteldesigns stehen.
Um eine strenge Modellbewertung zu gewährleisten, enthält der Trainingssatz nur RNA-Strukturen, die vor 2024 veröffentlicht wurden, und schließt RNAs mit einer Sequenzähnlichkeit von mehr als 80% zum Testdatensatz aus.