
摘要
文本识别是计算机视觉领域的一项重要任务,伴随诸多挑战。其中一项传统难题在于文本识别与文本分割之间的强耦合关系。过去几十年间,这一问题逐步得到解决,技术路径从依赖分割的识别方法演进至无分割(segmentation-free)方法,后者不仅识别精度更高,而且在数据标注成本上显著降低。本文在此基础上,进一步从无分割的单行文本识别迈向无分割的多行乃至整页文本识别。我们提出一种新颖且简洁的神经网络模块——OrigamiNet,该模块可无缝集成至任何基于CTC(Connectionist Temporal Classification)训练的全卷积单行文本识别器中,通过赋予模型足够的空间建模能力,使其能够将二维输入信号有效地压缩为一维序列,同时不丢失关键信息。经此改造后的网络仍可沿用原有的简单训练流程,并仅需使用未分割的图像与文本对进行训练。我们开展了一系列可解释性实验,结果表明,训练后的模型能够隐式地学习到准确的行级分割信息。在手写文本识别的IAM与ICDAR 2017 HTR基准测试中,我们的方法均取得了当前最优的字符错误率(Character Error Rate),全面超越文献中已有各类方法。尤其值得一提的是,在IAM数据集上,我们的性能甚至超过了那些在训练阶段使用精确定位信息的单行识别方法。相关代码已公开,可访问:https://github.com/IntuitionMachines/OrigamiNet。