
摘要
场景文本检测是场景文本识别系统中的一个重要步骤,也是一个具有挑战性的问题。与一般物体检测不同,场景文本检测的主要挑战在于自然图像中文字的任意方向、小尺寸以及显著变化的宽高比。本文提出了一种端到端可训练的快速场景文本检测器,命名为TextBoxes++,该检测器能够在单次网络前向传播中以高精度和高效性检测任意方向的场景文本。除了高效的非极大值抑制外,无需其他后处理步骤。我们已在四个公开数据集上对提出的TextBoxes++进行了评估。在所有实验中,TextBoxes++在文本定位精度和运行时间方面均优于竞争方法。具体而言,对于1024×1024分辨率的ICDAR 2015偶发文本图像,TextBoxes++实现了每秒11.6帧(fps)下的F值为0.817;对于768×768分辨率的COCO-Text图像,实现了每秒19.8帧下的F值为0.5591。此外,结合文本识别器后,TextBoxes++在流行的基准测试中显著优于最先进的方法,用于单词定位和端到端文本识别任务。代码可在以下地址获取:https://github.com/MhLiao/TextBoxes_plusplus