HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Extract-0-Datensatz Zur Extraktion Von Dokumentinformationen

Date

vor 2 Monaten

Size

55.5 MB

Organization

Inteli

Paper URL

2509.22906

License

Apache 2.0

Extract-0 ist ein hochwertiger Trainings- und Evaluierungsdatensatz für die Extraktion von Dokumentinformationen, der 2025 von Inteli veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:Extract-0: Ein spezialisiertes Sprachmodell zur Extraktion von Dokumentinformationen“, dessen Ziel es ist, die Forschung zur Leistungsoptimierung von Parametermodellen im kleinen Maßstab bei komplexen Extraktionsaufgaben zu unterstützen.

Dieser Datensatz enthält 280.128 Beispiele zur Dokumentextraktion, abgeleitet aus 34.761 Dokumentblöcken. Jedes Beispiel hat eine durchschnittliche Länge von ca. 532–1900 Token und deckt eine Vielzahl von Datenstrukturen ab (wie Objekte, Arrays, Zeichenfolgen, Daten und Zahlen). Die Daten stammen aus Textdaten aus wissenschaftlichen arXiv-Artikeln, PubMed Central, Wikipedia-Einträgen und der FDA-Datenbank (U.S. Food and Drug Administration). Jedes Beispiel besteht aus einem Originaldokumentfragment, der entsprechenden schemabasierten Extraktionsaufgabe und der strukturierten Ausgabe und bietet so einen einheitlichen Trainingsstandard für die Extraktion über mehrere Domänen und Formate hinweg.

Extract-0.torrent
Seeding 2Downloading 0Completed 20Total Downloads 73
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp