8 天前

TextDragon:一种端到端的任意形状文本检测框架

{ Cheng-Lin Liu, Xu-Yao Zhang, Fei Yin, Wenhao He, Wei Feng}
TextDragon:一种端到端的任意形状文本检测框架
摘要

现有的大多数文本定位方法要么专注于水平或有方向的文本检测,要么在需要字符级标注的前提下实现任意形状文本的定位。本文提出一种新颖的端到端文本定位框架——TextDragon,能够在仅使用词级或行级标注的情况下,实现对任意形状文本的检测与识别。受名为TextSnake的检测模型启发(该模型仅用于文本检测),我们将其命名为TextDragon。在TextDragon框架中,设计了一种文本检测器,通过一系列四边形来描述文本的形状,从而有效处理任意形状的文本。为从特征图中提取任意形状的文本区域,我们提出了一种新型可微分算子——RoISlide,该算子是连接任意形状文本检测与识别的关键。基于RoISlide提取的特征,引入一种基于CNN与CTC的文本识别器,使整个框架无需对字符位置进行标注。所提方法在两个弯曲文本基准数据集CTW1500和Total-Text上取得了当前最优性能,在ICDAR 2015数据集上也获得了具有竞争力的结果。