HyperAIHyperAI
il y a 7 jours

SIMARA : une base de données pour l’extraction d’informations clé-valeur à partir de pages complètes

Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant
SIMARA : une base de données pour l’extraction d’informations clé-valeur à partir de pages complètes
Résumé

Nous proposons une nouvelle base de données destinée à l’extraction d’informations à partir de documents manuscrits historiques. Le corpus comprend 5 393 guides de recherche issus de six séries différentes, datant des XVIIIe au XXe siècle. Les guides de recherche sont des documents manuscrits contenant des métadonnées décrivant des archives anciennes. Ils sont conservés aux Archives nationales de France et sont utilisés par les archivistes pour identifier et localiser des documents archivistiques. Chaque document est annoté au niveau de la page et contient sept champs à extraire. La localisation précise de chaque champ n’est pas fournie, ce qui encourage ainsi les recherches sur des systèmes d’extraction d’information sans segmentation. Nous proposons un modèle basé sur l’architecture Transformer, entraîné pour une extraction d’information end-to-end, et fournissons trois ensembles dédiés à l’entraînement, à la validation et au test, afin de garantir une comparaison équitable avec les travaux futurs. La base de données est librement accessible à l’adresse suivante : https://zenodo.org/record/7868059.

SIMARA : une base de données pour l’extraction d’informations clé-valeur à partir de pages complètes | Articles de recherche récents | HyperAI