HyperAIHyperAI

Datensatz Zur Beantwortung Von Textfragen Zum ProtT3-Protein

Datum

vor einem Jahr

Größe

1.4 GB

Organisation

Universität Hokkaido
Nationale Universität von Singapur
Universität für Wissenschaft und Technologie von China

Veröffentlichungs-URL

github.com

Der ProtT3-Datensatz wurde 2024 gemeinsam von Forschungsteams der National University of Singapore, der University of Science and Technology of China und der Hokkaido University erstellt.ProtT3: Protein-zu-Text-Generierung für textbasiertes Proteinverständnis" und wurde für ACL 2024 ausgewählt. Dieser Datensatz ist ein Vortrainingsdatensatz für die Papierforschung.

Der ProtT3-Datensatz besteht aus drei Datensätzen: Swiss-Prot, ProteinKG25 und PDB-QA.

Statistiken des Proteintextdatensatzes

Wie in der obigen Tabelle gezeigt, ist Swiss-Prot eine Proteinsequenzdatenbank mit Textanmerkungen. Die Forscher verarbeiteten den Datensatz und schlossen Proteinnamen aus den Textanmerkungen aus, um Informationslecks zu verhindern. Die generierte Textbeschreibung verknüpft Anmerkungen zur Proteinfunktion, zum Standort und zur Familie.

ProteinKG25 ist ein Wissensgraph, der aus der GeneOntology-Datenbank abgeleitet ist. Die Forscher aggregierten zunächst Tripletts desselben Proteins und füllten dann die Proteininformationen in eine vordefinierte Textvorlage, um die Tripletts in freien Text umzuwandeln.

PDB-QA ist ein Protein-Single-Turn-Frage-Antwort-Datensatz, der aus RCSB PDB2 abgeleitet ist. Enthält 30 Fragenvorlagen zur Proteinstruktur, zu Proteineigenschaften und zu ergänzenden Informationen. Wie in der folgenden Tabelle gezeigt, haben die Forscher die Fragen zur detaillierten Auswertung in vier Kategorien unterteilt, basierend auf dem Antwortformat (Zeichenfolge oder Zahl) und dem inhaltlichen Schwerpunkt (Struktur/Attribut oder ergänzende Informationen).

QA-Beispielpaare im PDB-QA-Datensatz
ProtT3.torrent
Seeding 1Herunterladen 0Abgeschlossen 154Gesamtdownloads 214
  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB