HyperAIHyperAI
vor 7 Tagen

SIMARA: eine Datenbank zur Extraktion von Schlüssel-Wert-Informationen aus Vollseiten

Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant
SIMARA: eine Datenbank zur Extraktion von Schlüssel-Wert-Informationen aus Vollseiten
Abstract

Wir stellen eine neue Datenbank für die Informationsextraktion aus historischen handschriftlichen Dokumenten vor. Die Korpus umfasst 5.393 Findhilfen aus sechs verschiedenen Serien, die aus dem 18. bis 20. Jahrhundert stammen. Findhilfen sind handschriftliche Dokumente, die Metadaten enthalten, die ältere Archive beschreiben. Sie sind in den Nationalarchiven Frankreichs archiviert und dienen Archivaren zur Identifizierung und Suche nach archivischen Unterlagen. Jedes Dokument ist auf Seiten-Ebene annotiert und enthält sieben zu extrahierende Felder. Die räumliche Lokalisierung jedes Feldes ist nicht verfügbar, wodurch dieser Datensatz Forschung an segmentation-free Systemen für die Informationsextraktion fördert. Wir präsentieren ein Modell auf Basis der Transformer-Architektur, das für die end-to-end-Informationsextraktion trainiert wurde, und stellen drei Datensätze für das Training, die Validierung und die Testung bereit, um eine faire Vergleichbarkeit mit zukünftigen Arbeiten zu gewährleisten. Die Datenbank ist frei über https://zenodo.org/record/7868059 zugänglich.

SIMARA: eine Datenbank zur Extraktion von Schlüssel-Wert-Informationen aus Vollseiten | Neueste Forschungsarbeiten | HyperAI