17 天前

来自众包标注的手写文本识别

Solène Tarride, Tristan Faine, Mélodie Boillet, Harold Mouchère, Christopher Kermorvant
来自众包标注的手写文本识别
摘要

本文探讨了在存在多个不完美或含噪声转录文本的情况下,训练手写文本识别模型的多种方法。我们考察了多种训练配置,包括选择单一转录文本、保留所有转录文本,以及基于所有可用标注计算一个聚合转录文本。此外,我们还评估了基于质量的数据筛选策略的影响,即从训练集中移除标注者之间一致性较低的样本。实验基于法国贝尔福市(Belfort)1790年至1946年间的城市登记档案进行。实验结果表明,采用共识转录文本或在多个转录文本上联合训练是有效的替代方案。然而,基于标注者之间一致程度来选择训练样本,会在训练数据中引入偏差,且未能提升模型性能。本研究使用的数据集已公开发布于Zenodo平台:https://zenodo.org/record/8041668。