8 天前
ABCNet v2:面向实时端到端文本识别的自适应贝塞尔曲线网络
Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu Liu, Hao Chen

摘要
端到端文本检测与识别(end-to-end text-spotting)旨在将文本检测与识别任务整合到统一框架中,因其简化了两个互补任务的流程而受到越来越多关注。然而,在处理任意形状文本实例时,该问题仍属开放性难题。以往方法大致可分为两类:基于字符的方法和基于分割的方法,这些方法通常需要字符级标注,且由于输出结果缺乏结构化,往往还需复杂的后处理步骤。本文提出自适应贝塞尔曲线网络v2(Adaptive Bezier Curve Network v2, ABCNet v2),以应对端到端文本检测与识别的挑战。本文的主要贡献有四点:1)首次提出使用参数化贝塞尔曲线自适应拟合任意形状文本,相较于基于分割的方法,该方法不仅能生成结构化输出,还具备可控的表示能力;2)设计了一种新颖的贝塞尔对齐层(BezierAlign),用于提取任意形状文本实例的高精度卷积特征,显著提升了识别精度,优于以往方法;3)与以往方法常依赖复杂后处理和对超参数敏感不同,ABCNet v2 保持了简洁的处理流程,仅需唯一的后处理步骤——非极大值抑制(non-maximum suppression, NMS);4)鉴于文本识别性能高度依赖特征对齐,ABCNet v2进一步引入一种简单而高效的坐标卷积(coordinate convolution),用于编码卷积核的位置信息,从而在几乎不增加计算开销的前提下,实现了显著的性能提升。在多种中英文双语基准数据集上的全面实验表明,ABCNet v2 在保持极高效能的同时,达到了当前最优的性能水平。