2 个月前

学习用于不规则场景文本检测的深度方向场

Yongchao Xu; Yukang Wang; Wei Zhou; Yongpan Wang; Zhibo Yang; Xiang Bai
学习用于不规则场景文本检测的深度方向场
摘要

场景文字检测是场景文字识别系统中的一个重要步骤。主要挑战在于文字大小和长宽比的显著变化、任意方向和形状。得益于深度学习领域的最新进展,多方向文字检测已经取得了令人印象深刻的成绩。然而,由于有限的文字表示方法(例如,水平边界框、旋转矩形或四边形),在检测弯曲文字时性能急剧下降。检测弯曲文字具有重要意义,因为它们在自然场景中非常普遍。本文提出了一种名为TextField的新颖文字检测器,用于检测不规则的场景文字。具体而言,我们学习了一个指向每个文字点最近的文字边界的外向方向场。该方向场由一个二维向量图像表示,并通过全卷积神经网络进行学习。它编码了二值文字掩模和用于分离相邻文字实例的方向信息,这是经典分割方法难以应对的挑战。基于所学的方向场,我们应用了一种简单而有效的形态学后处理方法来实现最终的检测结果。实验结果表明,所提出的TextField在两个弯曲文字数据集Total-Text和CTW1500上分别大幅超越了现有最佳方法(分别提高了28%和8%),并且在多方向数据集ICDAR 2015和MSRA-TD500上也表现出非常有竞争力的性能。此外,TextField在推广到未见过的数据集时表现稳健。代码可在https://github.com/YukangWang/TextField获取。

学习用于不规则场景文本检测的深度方向场 | 最新论文 | HyperAI超神经