HyperAIHyperAI

Command Palette

Search for a command to run...

SIMARA : une base de données pour l’extraction d’informations clé-valeur à partir de pages complètes

Solène Tarride Mélodie Boillet Jean-François Moufflet Christopher Kermorvant

Résumé

Nous proposons une nouvelle base de données destinée à l’extraction d’informations à partir de documents manuscrits historiques. Le corpus comprend 5 393 guides de recherche issus de six séries différentes, datant des XVIIIe au XXe siècle. Les guides de recherche sont des documents manuscrits contenant des métadonnées décrivant des archives anciennes. Ils sont conservés aux Archives nationales de France et sont utilisés par les archivistes pour identifier et localiser des documents archivistiques. Chaque document est annoté au niveau de la page et contient sept champs à extraire. La localisation précise de chaque champ n’est pas fournie, ce qui encourage ainsi les recherches sur des systèmes d’extraction d’information sans segmentation. Nous proposons un modèle basé sur l’architecture Transformer, entraîné pour une extraction d’information end-to-end, et fournissons trois ensembles dédiés à l’entraînement, à la validation et au test, afin de garantir une comparaison équitable avec les travaux futurs. La base de données est librement accessible à l’adresse suivante : https://zenodo.org/record/7868059.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp