2 个月前

基于上下文注意力多任务学习的单次任意形状文本检测器

Pengfei Wang; Chengquan Zhang; Fei Qi; Zuming Huang; Mengyi En; Junyu Han; Jingtuo Liu; Errui Ding; Guangming Shi
基于上下文注意力多任务学习的单次任意形状文本检测器
摘要

近年来,检测任意形状的场景文本一直是一项具有挑战性的任务。本文提出了一种基于分割的新型文本检测器,即SAST(Scene Arbitrary Shape Text Detector),该检测器采用基于全卷积网络(Fully Convolutional Network, FCN)的上下文注意力多任务学习框架,以学习各种几何属性,从而重建文本区域的多边形表示。考虑到文本的顺序特性,引入了上下文注意力模块(Context Attention Block),用于捕捉像素信息的长距离依赖关系,以获得更可靠的分割结果。在后处理阶段,提出了一种点到四边形分配方法(Point-to-Quad assignment method),通过一次性整合高层次的对象知识和低层次的像素信息,将像素聚类为文本实例。此外,利用所提出的几何属性可以更有效地提取任意形状文本的多边形表示。在包括ICDAR2015、ICDAR2017-MLT、SCUT-CTW1500和Total-Text在内的多个基准数据集上的实验表明,SAST在精度方面达到了更好的或相当的性能。此外,所提出的算法在单个NVIDIA Titan Xp显卡上运行时,在SCUT-CTW1500数据集上可达到每秒27.63帧(FPS),H均值为81.0%,超过了大多数现有的基于分割的方法。

基于上下文注意力多任务学习的单次任意形状文本检测器 | 最新论文 | HyperAI超神经