2 个月前
WordSup:利用词注释进行基于字符的文本检测
Han Hu; Chengquan Zhang; Yuxuan Luo; Yuzhuo Wang; Junyu Han; Errui Ding

摘要
图像文本通常由多个视觉元素组成,这些元素包括字符、单词、文本行和文本块,形成一个层次结构。在这些元素中,字符是各种语言(如西方语言、中文、日文、数学表达式等)中最基本的组成部分。基于字符检测器构建通用的文本检测引擎既自然又方便。然而,训练字符检测器需要大量的带有位置标注的字符数据,而获取这些数据的成本较高。实际上,现有的真实文本数据集大多是在单词或行级别进行标注的。为了解决这一困境,我们提出了一种弱监督框架,该框架可以利用紧密四边形或较为宽松的边界框形式的单词标注来训练字符检测器。当应用于场景文本检测时,我们可以通过利用大规模真实场景文本数据集(如ICDAR15和COCO-Text)中的单词标注来训练一个鲁棒的字符检测器。在我们的文本检测引擎流程中,字符检测器起着关键作用。它在几个具有挑战性的场景文本检测基准上达到了最先进的性能。我们还通过多种场景展示了我们流程的灵活性,包括变形文本检测和数学表达式识别。