
摘要
在自然场景图像中检测和识别文本是一项具有挑战性且尚未完全解决的任务。近年来,提出了多种新系统,试图至少解决这两个子任务(文本检测和文本识别)中的一个。本文介绍了STN-OCR,这是朝着半监督神经网络进行场景文本识别迈出的一步,该网络可以实现端到端优化。与大多数现有的由多个深度神经网络和若干预处理步骤组成的工作不同,我们提出使用单一的深度神经网络,以半监督的方式从自然图像中学习检测和识别文本。STN-OCR是一个集成了空间变换网络(Spatial Transformer Network)和文本识别网络的网络模型,前者可以学习检测图像中的文本区域,后者则负责对这些已识别的文本区域进行内容识别。我们研究了该模型在一系列不同任务(字符检测与识别以及文本行检测与识别)上的表现。实验结果表明,我们的模型能够在不同的任务上表现出色,而无需对其整体网络结构进行重大修改。