
摘要
无约束手写文本识别是一项具有挑战性的计算机视觉任务。传统上,这一任务通过两步方法来处理,即先进行行分割,再进行文本行识别。首次,我们提出了一种用于手写文档识别的端到端无分割架构:文档注意力网络(Document Attention Network)。除了文本识别外,该模型还训练用于以类似XML的方式使用开始和结束标签对手写文本部分进行标记。该模型由一个全卷积网络(FCN)编码器组成,用于特征提取,以及一堆变压器解码层,用于递归的逐字符预测过程。它以整篇文档为输入,并依次输出字符及逻辑布局标记。与现有的基于分割的方法不同,该模型在训练过程中未使用任何分割标签。我们在READ 2016数据集的页面级和双页级测试中分别达到了3.43%和3.70%的字符错误率(CER),取得了有竞争力的结果。此外,我们还在RIMES 2009数据集的页面级测试中达到了4.54%的CER。我们已将所有源代码和预训练模型权重发布在 https://github.com/FactoDeepLearning/DAN。