DRfold2 RNA構造テストデータセット
※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。
DRfold2データセットは、シンガポール国立大学の張楊教授のチームによって2025年に作成されました。関連論文のタイトルは「最初から 複合言語モデルとノイズ除去エンドツーエンド学習によるRNA構造予測このデータセットは、本研究における DRfold2 のパフォーマンスを客観的に評価するために構築された独立したテスト データセットです。
これには、配列長が 400 nt 未満で、次の 3 つのカテゴリに属する 28 個の RNA 構造が含まれています。
- 最新のRNAパズルのターゲット配列
- CASP15競合におけるRNA標的配列
- 2024年8月1日現在、タンパク質データバンク(PDB)データベースに最近公開されたRNA構造
注目すべきことに、研究者らは、機能解析と医薬品設計の主な焦点である自然界で発見されたRNA構造から逸脱しているという理由で、大規模な合成RNA構造をCASP15データセットから除外した。
厳密なモデル評価を確実に行うために、トレーニング セットには 2024 年以前に公開された RNA 構造のみが含まれ、テスト データセットとの配列類似性が 80% を超える RNA は除外されます。