Command Palette
Search for a command to run...
Extract-0-Datensatz Zur Extraktion Von Dokumentinformationen
Datum
Größe
Paper-URL
Lizenz
Apache 2.0
Extract-0 ist ein hochwertiger Trainings- und Evaluierungsdatensatz für die Extraktion von Dokumentinformationen, der 2025 von Inteli veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:Extract-0: Ein spezialisiertes Sprachmodell zur Extraktion von Dokumentinformationen“, dessen Ziel es ist, die Forschung zur Leistungsoptimierung von Parametermodellen im kleinen Maßstab bei komplexen Extraktionsaufgaben zu unterstützen.
Dieser Datensatz enthält 280.128 Beispiele zur Dokumentextraktion, abgeleitet aus 34.761 Dokumentblöcken. Jedes Beispiel hat eine durchschnittliche Länge von ca. 532–1900 Token und deckt eine Vielzahl von Datenstrukturen ab (wie Objekte, Arrays, Zeichenfolgen, Daten und Zahlen). Die Daten stammen aus Textdaten aus wissenschaftlichen arXiv-Artikeln, PubMed Central, Wikipedia-Einträgen und der FDA-Datenbank (U.S. Food and Drug Administration). Jedes Beispiel besteht aus einem Originaldokumentfragment, der entsprechenden schemabasierten Extraktionsaufgabe und der strukturierten Ausgabe und bietet so einen einheitlichen Trainingsstandard für die Extraktion über mehrere Domänen und Formate hinweg.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.