HyperAI

Ensemble De Données De Génération De Protéines APM

Date

il y a 11 jours

Taille

9.06 GB

Organisation

Académie chinoise des sciences

URL de publication

zenodo.org

Licence

其他

Catégories

Cet ensemble de données sur la génération de protéines, publié en 2025 par l'Université du Hunan, l'Université de l'Académie chinoise des sciences et l'équipe ByteDance Seed, est disponible ici. Les résultats de l'étude sont les suivants :Un modèle génératif tout-atome pour la conception de complexes protéiques".

Composition de l'ensemble de données

  • Ensemble de données sur les protéines à chaîne unique : contient 187 494 échantillons, couvrant une variété de types et de fonctions de protéines, provenant des bases de données PDB (18 684), Swiss-Prot (140 769) et AFDB (28 041).
  • Ensemble de données protéiques multichaînes : contient 11 620 échantillons, couvrant des complexes protéiques de 2 à 6 chaînes, permettant la modélisation multichaîne. Les données sont issues des données d'assemblage biologique de la PDB, excluant trois types d'échantillons : les échantillons de la base de données d'anticorps SAbDab, les échantillons contenant des chaînes de moins de 30 chaînes (considérées comme des peptides), et les échantillons d'une longueur supérieure à 2 048 chaînes ou sans identifiant de cluster. Les chercheurs ont sélectionné aléatoirement les échantillons multichaînes lors de l'apprentissage : les échantillons de plus de 384 résidus ont été centrés sur les paires de résidus de l'interface de liaison interchaîne, conservant les 384 acides aminés les plus proches.

APM.torrent
Partage 1Téléchargement 0Terminés 3Téléchargements totaux 8
  • APM/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • APM.zip
          9.06 GB