17 天前

SPTS v2:单点场景文本检测与识别

Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin
SPTS v2:单点场景文本检测与识别
摘要

端到端场景文本定位(scene text spotting)由于文本检测与识别之间的内在协同作用,取得了显著进展。以往的方法通常依赖于人工标注,如水平矩形、旋转矩形、四边形或多边形等,这类标注方式的成本远高于单点标注。本文提出的全新框架SPTS v2,首次实现了仅通过单点标注即可训练高性能的文本定位模型。SPTS v2保留了自回归Transformer架构的优势,采用实例分配解码器(Instance Assignment Decoder, IAD),通过在同一条预测序列中依次预测所有文本实例的中心点,从而实现对文本位置的精准建模;同时引入并行识别解码器(Parallel Recognition Decoder, PRD),实现文本识别的并行处理,显著降低了序列长度的需求。这两个解码器共享参数,并通过一种简洁而高效的双向信息传递机制进行交互,有效实现梯度与特征信息的传递。在多个主流基准数据集上的大量实验表明,SPTS v2在参数量更少的情况下,性能超越了此前最先进的单点标注文本定位方法,且推理速度提升达19倍。在SPTS v2框架下,实验结果表明,相较于其他标注形式,单点表示在场景文本定位任务中展现出潜在优势。这一探索为突破现有技术范式,推动场景文本定位在更广泛应用场景中的落地提供了重要契机。代码已开源,地址为:https://github.com/Yuliang-Liu/SPTSv2。

SPTS v2:单点场景文本检测与识别 | 最新论文 | HyperAI超神经