15 天前
重新思考文本行识别模型
Daniel Hernandez Diaz, Siyang Qin, Reeve Ingle, Yasuhisa Fujii, Alessandro Bissacco

摘要
本文研究文本行识别问题。与大多数针对特定领域(如场景文本或手写文档)的方法不同,我们致力于解决一个更普遍的问题:构建一种通用架构,能够从任意图像中提取文本,而不论其来源或输入模态。我们考察了两类解码器(连接时序分类,CTC,以及Transformer)和三种编码器模块(双向LSTM、自注意力机制、GRCLs),并在广泛使用的场景文本与手写文本公开数据集上进行了大量实验,以比较它们在准确率与性能方面的表现。研究发现,尽管在现有文献中尚未受到广泛关注,但采用自注意力机制作为编码器、CTC作为解码器的组合方案,在结合外部语言模型并同时在公开数据与内部数据上进行训练后,无论在准确率还是计算复杂度方面均优于其他所有配置。与更为常见的基于Transformer的模型不同,该架构能够处理任意长度的输入,这一特性对于实现通用文本行识别至关重要。此外,基于从多个来源收集的内部数据集,我们揭示了当前公开数据集在评估文本行识别器准确率方面的局限性:由于图像宽度和序列长度分布相对狭窄,难以观察到Transformer方法在处理长文本行转录任务时所出现的质量下降现象。