
摘要
在自然场景图像中检测与识别文本是一项具有挑战性 yet 尚未完全解决的任务。近年来,已有多种新系统被提出,旨在至少解决其中一项子任务(文本检测或文本识别)。本文提出SEE,一种面向场景文本检测与识别的半监督神经网络的阶段性进展,该方法可实现端到端的优化。大多数现有方法由多个深度神经网络及多个预处理步骤组成,而本文提出采用单一深度神经网络,以半监督方式学习从自然图像中同时完成文本检测与识别。SEE网络整合并联合学习了一个空间变换网络(spatial transformer network),用于学习识别图像中的文本区域,以及一个文本识别网络,负责对检测出的文本区域进行内容识别。本文阐述了该新颖方法的核心思想,并通过在标准基准数据集上进行的一系列实验验证了其可行性,实验结果表明该方法取得了具有竞争力的性能。