15 天前

基于垂直注意力网络的端到端手写段落文本识别

Denis Coquenet, Clément Chatelain, Thierry Paquet
基于垂直注意力网络的端到端手写段落文本识别
摘要

无约束手写文本识别对计算机视觉系统而言仍是一项具有挑战性的任务。传统的段落文本识别通常依赖于两个模型:第一个模型用于文本行分割,第二个模型用于文本行识别。本文提出一种基于混合注意力机制的统一端到端模型,以解决该问题。该模型设计为逐行迭代处理段落图像,整体结构可分为三个模块:首先,编码器从整幅段落图像中生成特征图;随后,注意力模块通过递归方式生成垂直加权掩码,使模型能够聚焦于当前文本行的特征,从而实现一种隐式的文本行分割;最后,解码器模块对每一行的特征进行字符序列识别,最终完成整段文本的识别。在三个主流数据集上,该方法在段落级别的字符错误率(CER)上均达到当前最优水平:RIMES数据集为1.91%,IAM数据集为4.45%,READ 2016数据集为3.59%。相关代码及训练好的模型权重已开源,地址为:https://github.com/FactoDeepLearning/VerticalAttentionOCR。