HyperAI

APM-Proteingenerierungsdatensatz

Datum

vor 11 Tagen

Größe

9.06 GB

Organisation

Chinesische Akademie der Wissenschaften (Chinesische Akademie der Wissenschaften)

Veröffentlichungs-URL

zenodo.org

Lizenz

其他

Kategorien

Dieser Datensatz ist ein Proteingenerierungsdatensatz, der 2025 von der Hunan University, der University of Chinese Academy of Sciences und dem ByteDance Seed Team veröffentlicht wurde. Die zugehörigen Ergebnisse sind:Ein All-Atom-Generatives Modell für den Entwurf von Proteinkomplexen".

Datensatzzusammensetzung

  • Datensatz zu Einzelkettenproteinen: enthält 187.494 Proben, die eine Vielzahl von Proteintypen und -funktionen abdecken, aus den Datenbanken PDB (18.684), Swiss-Prot (140.769) und AFDB (28.041).
  • Multi-Chain-Protein-Datensatz: Enthält 11.620 Proben, die 2- bis 6-Ketten-Proteinkomplexe abdecken und die Multi-Chain-Modellierung unterstützen. Die Daten stammen aus PDB-Daten zur biologischen Assemblierung, wobei drei Probentypen ausgeschlossen sind: Proben aus der SAbDab-Antikörperdatenbank, Proben mit Kettenlängen unter 30 Ketten (als Peptide betrachtet), Proben mit einer Länge von über 2.048 Ketten oder ohne Cluster-IDs. Die Forscher haben die Multi-Chain-Proben während des Trainings zufällig gekürzt: Proben mit mehr als 384 Aminosäuren wurden auf die Restpaare der Interchain-Bindungsschnittstelle zentriert, wobei die nächstgelegenen 384 Aminosäuren beibehalten wurden.

APM.torrent
Seeding 1Herunterladen 0Abgeschlossen 0Gesamtdownloads 2
  • APM/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • APM.zip
          9.06 GB