11 天前

卷积字符网络

Linjie Xing, Zhi Tian, Weilin Huang, Matthew R. Scott
卷积字符网络
摘要

近年来,在自然图像中实现文本检测与识别的统一框架方面取得了显著进展。然而,现有的联合模型大多基于两阶段框架,依赖区域建议池化(ROI pooling)操作,这在一定程度上限制了识别任务的性能表现。为此,本文提出了一种称为CharNet的卷积字符网络,该模型为单阶段架构,能够在一次前向传播中同时完成文本检测与识别任务。CharNet直接输出单词和字符的边界框及其对应的字符标签。通过将字符作为基本处理单元,我们克服了现有方法在联合优化文本检测与基于RNN的识别分支时所面临的核心难题。此外,本文还提出了一种迭代字符检测方法,能够有效将从合成数据中学到的字符检测能力迁移至真实场景图像中。上述技术改进使得CharNet成为一个结构简洁、紧凑且性能强大的单阶段模型,能够稳定处理多方向及弯曲文本。我们在三个标准基准数据集上对CharNet进行了评估,结果表明其在端到端文本识别任务中始终显著优于当前最先进方法,例如在ICDAR 2015数据集上,使用通用词典时识别准确率从65.33%提升至71.08%;在Total-Text数据集上,准确率从54.0%提升至69.23%。相关代码已开源,地址为:https://github.com/MalongTech/research-charnet。

卷积字符网络 | 最新论文 | HyperAI超神经