HyperAIHyperAI

Command Palette

Search for a command to run...

Datensatz Zur Beantwortung Von Textfragen Zum ProtT3-Protein

Datum

vor einem Jahr

Größe

1.4 GB

Organisation

Universität Hokkaido
Nationale Universität von Singapur
Universität für Wissenschaft und Technologie von China

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Der ProtT3-Datensatz wurde 2024 gemeinsam von Forschungsteams der National University of Singapore, der University of Science and Technology of China und der Hokkaido University erstellt.ProtT3: Protein-zu-Text-Generierung für textbasiertes Proteinverständnis" und wurde für ACL 2024 ausgewählt. Dieser Datensatz ist ein Vortrainingsdatensatz für die Papierforschung.

Der ProtT3-Datensatz besteht aus drei Datensätzen: Swiss-Prot, ProteinKG25 und PDB-QA.

Statistiken des Proteintextdatensatzes

Wie in der obigen Tabelle gezeigt, ist Swiss-Prot eine Proteinsequenzdatenbank mit Textanmerkungen. Die Forscher verarbeiteten den Datensatz und schlossen Proteinnamen aus den Textanmerkungen aus, um Informationslecks zu verhindern. Die generierte Textbeschreibung verknüpft Anmerkungen zur Proteinfunktion, zum Standort und zur Familie.

ProteinKG25 ist ein Wissensgraph, der aus der GeneOntology-Datenbank abgeleitet ist. Die Forscher aggregierten zunächst Tripletts desselben Proteins und füllten dann die Proteininformationen in eine vordefinierte Textvorlage, um die Tripletts in freien Text umzuwandeln.

PDB-QA ist ein Protein-Single-Turn-Frage-Antwort-Datensatz, der aus RCSB PDB2 abgeleitet ist. Enthält 30 Fragenvorlagen zur Proteinstruktur, zu Proteineigenschaften und zu ergänzenden Informationen. Wie in der folgenden Tabelle gezeigt, haben die Forscher die Fragen zur detaillierten Auswertung in vier Kategorien unterteilt, basierend auf dem Antwortformat (Zeichenfolge oder Zahl) und dem inhaltlichen Schwerpunkt (Struktur/Attribut oder ergänzende Informationen).

QA-Beispielpaare im PDB-QA-Datensatz
ProtT3.torrent
Seeding 1Herunterladen 0Abgeschlossen 191Gesamtdownloads 274
  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp