6 个月前

摘要

端到端文本检测与识别旨在将场景文本检测与识别两个子任务整合到统一的框架中。在设计高效文本定位器（spotter）的过程中，如何处理这两个子任务之间的关系至关重要。尽管基于Transformer的方法消除了对启发式后处理的依赖，但仍面临子任务间协同不足以及训练效率低下的问题。本文提出DeepSolo，一种结构简洁的DETR类基线模型，其通过单一解码器结合显式点（explicit points）实现文本检测与识别的联合建模。技术上，针对每个文本实例，我们将字符序列表示为有序点，并采用可学习的显式点查询进行建模。经过单一解码器的处理后，这些点查询已编码了必要的文本语义与空间位置信息，随后可通过并行设计的简单预测头，直接解码出文本的中心线、边界、书写类型及置信度。此外，我们还引入了一种文本匹配准则，以提供更精确的监督信号，从而显著提升训练效率。在多个公开基准上的定量实验表明，DeepSolo不仅超越了现有最先进方法，且在训练效率方面表现更优。同时，DeepSolo还兼容行级标注（line annotations），其标注成本远低于多边形标注。代码已开源，地址为：https://github.com/ViTAE-Transformer/DeepSolo。

源 PDF