2 个月前
基于多方向场景文本检测的角点定位和区域分割
Lyu, Pengyuan ; Yao, Cong ; Wu, Wenhao ; Yan, Shuicheng ; Bai, Xiang

摘要
先前基于深度学习的最先进的场景文本检测方法大致可以分为两类。第一类方法将场景文本视为一种普通对象,并遵循一般对象检测范式通过回归文本框位置来定位场景文本,但受到任意方向和大宽高比的场景文本的困扰。第二类方法直接分割文本区域,但通常需要复杂的后处理。在本文中,我们提出了一种结合了这两类方法思想同时避免其缺点的方法。我们建议通过定位文本边界框的角点并相对位置分割文本区域来检测场景文本。在推理阶段,候选框通过采样和分组角点生成,再由分割图进一步评分并通过非极大值抑制(NMS)进行抑制。与以往的方法相比,我们的方法能够自然地处理长方向的文本,并且不需要复杂的后处理。ICDAR2013、ICDAR2015、MSRA-TD500、MLT和COCO-Text上的实验表明,所提出的算法在准确性和效率方面均取得了更好或相当的结果。基于VGG16模型,该算法在ICDAR2015上达到了84.3%的F值,在MSRA-TD500上达到了81.5%的F值。