HyperAIHyperAI

Command Palette

Search for a command to run...

SIMARA: eine Datenbank zur Extraktion von Schlüssel-Wert-Informationen aus Vollseiten

Solène Tarride Mélodie Boillet Jean-François Moufflet Christopher Kermorvant

Zusammenfassung

Wir stellen eine neue Datenbank für die Informationsextraktion aus historischen handschriftlichen Dokumenten vor. Die Korpus umfasst 5.393 Findhilfen aus sechs verschiedenen Serien, die aus dem 18. bis 20. Jahrhundert stammen. Findhilfen sind handschriftliche Dokumente, die Metadaten enthalten, die ältere Archive beschreiben. Sie sind in den Nationalarchiven Frankreichs archiviert und dienen Archivaren zur Identifizierung und Suche nach archivischen Unterlagen. Jedes Dokument ist auf Seiten-Ebene annotiert und enthält sieben zu extrahierende Felder. Die räumliche Lokalisierung jedes Feldes ist nicht verfügbar, wodurch dieser Datensatz Forschung an segmentation-free Systemen für die Informationsextraktion fördert. Wir präsentieren ein Modell auf Basis der Transformer-Architektur, das für die end-to-end-Informationsextraktion trainiert wurde, und stellen drei Datensätze für das Training, die Validierung und die Testung bereit, um eine faire Vergleichbarkeit mit zukünftigen Arbeiten zu gewährleisten. Die Datenbank ist frei über https://zenodo.org/record/7868059 zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp