7 天前

SIMARA:用于从完整页面中提取键值信息的数据库

Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant
SIMARA:用于从完整页面中提取键值信息的数据库
摘要

我们提出了一种用于从历史手写文献中提取信息的新数据库。该语料库包含来自六个不同系列的5,393份档案指南(finding aids),时间跨度为18至20世纪。档案指南是记载较早档案 metadata 的手写文档,存于法国国家档案馆,供档案工作者用于识别和检索档案资料。每份文档均在页面级别进行标注,包含七个待提取字段。值得注意的是,各字段的定位信息并未提供,因此该数据集旨在推动无需文本分割(segmentation-free)的信息抽取系统研究。我们提出一种基于 Transformer 架构的端到端信息抽取模型,并提供了用于训练、验证和测试的三组数据集,以确保未来研究之间具备公平的比较基础。该数据库可免费获取,访问地址为:https://zenodo.org/record/7868059。

SIMARA:用于从完整页面中提取键值信息的数据库 | 最新论文 | HyperAI超神经