8 天前

DEER:面向场景文本定位的检测无关型端到端识别器

Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek
DEER:面向场景文本定位的检测无关型端到端识别器
摘要

近期的端到端场景文本检测与识别方法在识别任意形状文本实例方面取得了显著进展。现有主流方法通常采用感兴趣区域池化(region of interest pooling)或分割掩码(segmentation masks)来将特征限制在单个文本实例上。然而,当检测结果不够准确时(例如部分字符被裁剪),这种机制会使识别器难以解码出正确的文本序列。考虑到仅依靠检测器难以精确判断词边界,本文提出一种新型的无检测依赖端到端识别框架——DEER(Detection-agnostic End-to-End Recognizer)。该方法通过为每个文本实例引入一个单一参考点,而非依赖检测出的区域,来连接检测与识别模块,从而显著降低两者之间的强耦合关系。得益于整个图像的特征信息,解码器可基于该参考点识别出对应的文本内容。由于仅需一个参考点即可完成识别,该方法无需依赖任意形状的检测器或边界多边形标注,大大简化了标注流程。实验结果表明,DEER在常规文本与任意形状文本检测识别基准上均取得了具有竞争力的性能。进一步分析显示,DEER对检测误差具有较强的鲁棒性。相关代码与数据集将公开发布。