8 天前
文本感知机:迈向端到端任意形状文本识别
Liang Qiao, Sanli Tang, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu

摘要
近年来,众多方法被提出用于检测不规则场景文本,并取得了令人瞩目的成果。然而,这些方法的定位结果往往难以满足后续文本识别任务的需求,主要原因有两个:其一,任意形状文本的识别仍是极具挑战性的任务;其二,当前普遍采用的不可训练的检测-识别流水线架构会导致性能次优。为解决这一不兼容问题,本文提出一种端到端可训练的文本检测与识别方法——Text Perceptron。具体而言,Text Perceptron 首先采用一种高效的基于分割的文本检测器,该检测器能够学习文本的潜在阅读顺序及边界信息。随后,设计了一种新颖的形状变换模块(Shape Transform Module,简称 STM),可在不引入额外参数的情况下,将检测得到的特征区域转换为规则的几何形态。该模块将文本检测与后续识别部分统一于一个完整框架中,有助于整个网络实现全局优化。实验结果表明,所提方法在两个标准文本基准数据集 ICDAR 2013 和 ICDAR 2015 上取得了具有竞争力的性能,同时在不规则文本基准数据集 SCUT-CTW1500 和 Total-Text 上显著优于现有方法。