2 个月前

形状鲁棒的文本检测方法:渐进尺度扩展网络

Wenhai Wang; Enze Xie; Xiang Li; Wenbo Hou; Tong Lu; Gang Yu; Shuai Shao
形状鲁棒的文本检测方法:渐进尺度扩展网络
摘要

场景文字检测近年来取得了快速进展,尤其是在卷积神经网络的发展推动下。然而,仍有两个挑战阻碍了算法在工业应用中的推广。一方面,大多数最先进的算法需要使用四边形边界框来定位任意形状的文字,这种方法不够精确。另一方面,当两个文本实例距离较近时,可能会导致错误检测,将这两个实例合并在一起。传统上,基于分割的方法可以缓解第一个问题,但在解决第二个挑战方面通常表现不佳。为了解决这两个挑战,本文提出了一种新颖的渐进尺度扩展网络(Progressive Scale Expansion Network, PSENet),该网络能够精确检测任意形状的文本实例。具体而言,PSENet为每个文本实例生成不同尺度的内核,并逐步将最小尺度的内核扩展到具有完整形状的文本实例。由于最小尺度内核之间存在较大的几何间隔,我们的方法能够有效地分离靠近的文本实例,从而使得基于分割的方法更容易用于检测任意形状的文本实例。在CTW1500、Total-Text、ICDAR 2015和ICDAR 2017 MLT数据集上的大量实验验证了PSENet的有效性。特别值得注意的是,在包含大量长曲线文字的CTW1500数据集中,PSENet实现了74.3%的F值(每秒27帧),而我们最好的F值(82.2%)比现有最先进算法高出6.6%。未来我们将发布相关代码。

形状鲁棒的文本检测方法:渐进尺度扩展网络 | 最新论文 | HyperAI超神经