8 天前

文本检测变换器

Xiang Zhang, Yongwen Su, Subarna Tripathi, Zhuowen Tu
文本检测变换器
摘要

本文提出了一种通用的端到端文本检测与识别框架——TExt Spotting TRansformers(TESTR),该框架基于Transformer架构,适用于自然场景中的文本检测与识别任务。TESTR采用单一编码器配合双解码器结构,联合实现文本框控制点回归与字符识别。与现有大多数方法不同,本方法无需依赖感兴趣区域(Region-of-Interest)操作,也无需依赖启发式规则驱动的后处理流程。在处理弯曲文本框时,TESTR尤其表现出色,因其能够有效应对传统边界框表示在复杂形状文本上的适应性局限。本文提出了适用于贝塞尔曲线与多边形标注的统一控制点表征方式,能够准确描述各类文本实例的几何形态。此外,我们设计了一种基于边界框引导的多边形检测机制(box-to-polygon),进一步提升检测精度。在弯曲文本及任意形状文本数据集上的实验结果表明,所提出的TESTR算法达到了当前最优的性能水平。

文本检测变换器 | 最新论文 | HyperAI超神经