2 个月前

使用卷积神经网络在自然场景中识别文本

Max Jaderberg; Karen Simonyan; Andrea Vedaldi; Andrew Zisserman
使用卷积神经网络在自然场景中识别文本
摘要

在本研究中,我们提出了一种端到端的文字检测系统——用于在自然场景图像中定位和识别文字——以及基于文本的图像检索系统。该系统基于区域提议机制进行检测,并利用深度卷积神经网络进行识别。我们的流水线采用了新颖的互补提议生成技术组合,以确保高召回率,并通过后续的快速过滤阶段来提高精确度。对于提议的识别和排序,我们训练了非常大的卷积神经网络,能够在整个提议区域内同时进行单词识别,从而摆脱了过去基于字符分类器的系统。这些网络仅使用由合成文本生成引擎产生的数据进行训练,无需人工标注的数据。通过对流水线各阶段的分析,我们展示了其在整个过程中达到的最先进性能。我们在多个标准的端到端文字检测基准测试和基于文本的图像检索数据集上进行了严格的实验,结果显示相比所有先前的方法都有显著改进。最后,我们演示了该文字检测系统的实际应用,使其能够通过文本查询即时搜索数千小时的新闻录像。

使用卷积神经网络在自然场景中识别文本 | 最新论文 | HyperAI超神经