
摘要
自然场景中任意形状文本的检测是一项极具挑战性的任务。与现有文本检测方法仅依赖有限的特征表示来感知文本不同,本文提出一种新颖的框架——TextFuseNet,通过融合更丰富的特征以实现更优的文本检测效果。具体而言,我们从字符级、词级和全局级三个层次的特征表示出发感知文本,并引入一种新型的文本特征融合技术,以实现对任意形状文本的鲁棒检测。多层级特征表示能够在将文本分解为独立字符的同时,有效保留其整体语义信息,从而更全面地描述文本特征。TextFuseNet采用多路径融合架构,对来自不同层次的文本特征进行收集与融合,能够有效对齐并整合异构特征表示。在实际应用中,所提出的TextFuseNet能够学习到对任意形状文本更为充分的表征,显著抑制误检(false positives),并生成更精确的检测结果。此外,该框架还可基于弱监督方式进行训练,适用于缺乏字符级标注的语料数据集。在多个公开数据集上的实验结果表明,TextFuseNet达到了当前最优的检测性能:在ICDAR2013数据集上获得94.3%的F-measure,在ICDAR2015上达到92.1%,在Total-Text上为87.1%,在CTW-1500上为86.6%。