7 个月前

摘要

我们提出了一种新颖的单次文本检测器，该检测器能够直接输出自然图像中的单词级边界框。我们引入了一种注意力机制，通过自动学习的注意力图粗略地识别文本区域。这显著抑制了卷积特征中的背景干扰，对于生成准确的单词推理尤为重要，尤其是在极小尺寸的情况下。因此，该模型本质上以一种从粗到精的方式工作。它不同于近期基于全卷积网络（FCN）的文本检测器，后者通过级联多个FCN模型来实现精确预测。此外，我们开发了一个层次化的Inception模块，能够高效地聚合多尺度Inception特征。这不仅增强了局部细节，还编码了强大的上下文信息，使得检测器在处理单尺度图像中的多尺度和多方向文本时能够可靠运行。我们的文本检测器在ICDAR 2015基准测试中达到了77%的F值，超越了现有文献[18, 28]中的最新结果。演示地址为：http://sstd.whuang.org/。