HyperAIHyperAI

Command Palette

Search for a command to run...

Datensatz Zur Beantwortung Von Textfragen Zum ProtT3-Protein

Date

vor einem Jahr

Size

1.4 GB

Organization

Universität Hokkaido
Nationale Universität von Singapur
Universität für Wissenschaft und Technologie von China

Publish URL

github.com

Paper URL

arxiv.org

Der ProtT3-Datensatz wurde 2024 gemeinsam von Forschungsteams der National University of Singapore, der University of Science and Technology of China und der Hokkaido University erstellt.ProtT3: Protein-zu-Text-Generierung für textbasiertes Proteinverständnis" und wurde für ACL 2024 ausgewählt. Dieser Datensatz ist ein Vortrainingsdatensatz für die Papierforschung.

Der ProtT3-Datensatz besteht aus drei Datensätzen: Swiss-Prot, ProteinKG25 und PDB-QA.

Statistiken des Proteintextdatensatzes

Wie in der obigen Tabelle gezeigt, ist Swiss-Prot eine Proteinsequenzdatenbank mit Textanmerkungen. Die Forscher verarbeiteten den Datensatz und schlossen Proteinnamen aus den Textanmerkungen aus, um Informationslecks zu verhindern. Die generierte Textbeschreibung verknüpft Anmerkungen zur Proteinfunktion, zum Standort und zur Familie.

ProteinKG25 ist ein Wissensgraph, der aus der GeneOntology-Datenbank abgeleitet ist. Die Forscher aggregierten zunächst Tripletts desselben Proteins und füllten dann die Proteininformationen in eine vordefinierte Textvorlage, um die Tripletts in freien Text umzuwandeln.

PDB-QA ist ein Protein-Single-Turn-Frage-Antwort-Datensatz, der aus RCSB PDB2 abgeleitet ist. Enthält 30 Fragenvorlagen zur Proteinstruktur, zu Proteineigenschaften und zu ergänzenden Informationen. Wie in der folgenden Tabelle gezeigt, haben die Forscher die Fragen zur detaillierten Auswertung in vier Kategorien unterteilt, basierend auf dem Antwortformat (Zeichenfolge oder Zahl) und dem inhaltlichen Schwerpunkt (Struktur/Attribut oder ergänzende Informationen).

QA-Beispielpaare im PDB-QA-Datensatz
ProtT3.torrent
Seeding 1Downloading 0Completed 197Total Downloads 319
  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp