8 天前

DeepSolo++:让带有显式点的Transformer解码器独立完成多语言文本定位

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao
DeepSolo++:让带有显式点的Transformer解码器独立完成多语言文本定位
摘要

端到端文本定位旨在将场景文本检测与识别整合到统一框架中。在设计高效文本定位器(spotter)时,如何处理这两个子任务之间的关系至关重要。尽管基于Transformer的方法消除了依赖启发式后处理的步骤,但仍面临子任务间协同不足以及训练效率低下的问题。此外,现有方法往往忽视了多语言文本定位的研究,而后者通常需要额外的文本书写系统识别任务。本文提出DeepSolo++,一种结构简洁的DETR类基线模型,其通过单一解码器,利用显式点(explicit points)实现文本检测、识别与书写系统识别的联合建模。技术上,针对每个文本实例,我们将字符序列表示为有序点,并通过可学习的显式点查询进行建模。经过单一解码器处理后,这些点查询已编码了必要的文本语义与空间位置信息,进而可通过并行的简单预测头,直接解码出文本的中心线、边界框、书写系统类型及置信度。此外,我们展示了该方法在字符类别、语言类型和任务扩展性方面具有出色的可拓展性。一方面,该方法不仅在英文场景中表现优异,还能有效处理具有复杂字体结构和上千级字符类别的文本,例如中文;另一方面,相较于先前方法,DeepSolo++在引入的书写系统识别任务上取得了更优性能,且训练流程更为简洁。同时,我们的模型还兼容行级标注(line annotations),相较于多边形标注,显著降低了标注成本。相关代码已开源,地址为:\url{https://github.com/ViTAE-Transformer/DeepSolo}。