HyperAIHyperAI

Command Palette

Search for a command to run...

Extract-0-Datensatz Zur Extraktion Von Dokumentinformationen

Datum

vor 19 Tagen

Größe

55.5 MB

Organisation

Inteli

Paper-URL

2509.22906

Lizenz

Apache 2.0

Extract-0 ist ein hochwertiger Trainings- und Evaluierungsdatensatz für die Extraktion von Dokumentinformationen, der 2025 von Inteli veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:Extract-0: Ein spezialisiertes Sprachmodell zur Extraktion von Dokumentinformationen“, dessen Ziel es ist, die Forschung zur Leistungsoptimierung von Parametermodellen im kleinen Maßstab bei komplexen Extraktionsaufgaben zu unterstützen.

Dieser Datensatz enthält 280.128 Beispiele zur Dokumentextraktion, abgeleitet aus 34.761 Dokumentblöcken. Jedes Beispiel hat eine durchschnittliche Länge von ca. 532–1900 Token und deckt eine Vielzahl von Datenstrukturen ab (wie Objekte, Arrays, Zeichenfolgen, Daten und Zahlen). Die Daten stammen aus Textdaten aus wissenschaftlichen arXiv-Artikeln, PubMed Central, Wikipedia-Einträgen und der FDA-Datenbank (U.S. Food and Drug Administration). Jedes Beispiel besteht aus einem Originaldokumentfragment, der entsprechenden schemabasierten Extraktionsaufgabe und der strukturierten Ausgabe und bietet so einen einheitlichen Trainingsstandard für die Extraktion über mehrere Domänen und Formate hinweg.

Extract-0.torrent
Seeding 1Herunterladen 0Abgeschlossen 10Gesamtdownloads 25
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Extract-0-Datensatz Zur Extraktion Von Dokumentinformationen | Datensätze | HyperAI