6 个月前

摘要

在自然场景图像（如高速公路标志或商店门面标识）中理解文本含义，当文本在图像中出现透视缩短或字母被艺术化扭曲时尤为困难。为此，我们提出了一种基于流水线的文本检测与识别框架，能够有效检测并识别复杂背景下的自然场景图像中各种字体、形状和方向的文本。本研究的主要贡献在于提出的文本检测组件——UHT（UNet、热图与文本填充的缩写）。UHT利用UNet网络生成候选文本区域的热图，并结合文本填充（Textfill）算法，为每个候选文本生成紧密贴合的多边形边界。该方法通过由真实标注提供的文本边界框生成的真值热图对UNet进行训练。我们所提出的文本定位与识别框架名为UHTA，其将UHT与当前最先进的文本识别系统ASTER相结合。在四个具有挑战性且公开的场景文本检测数据集（Total-Text、SCUT-CTW1500、MSRA-TD500和COCO-Text）上的实验结果表明，UHT在检测多语言（可能含旋转）直线文本以及多种语言脚本中的曲线文本方面均展现出优异的性能与良好的泛化能力。在Total-Text数据集上的实验结果进一步显示，UHTA在F-measure指标上优于四种当前最先进的文本定位框架，提升幅度至少达9.1个百分点，表明UHTA可作为真实应用场景中完整的文本检测与识别系统使用。

源 PDF