16 天前

I3CL：面向任意形状场景文本检测的实例内与实例间协同学习

Bo Du, Jian Ye, Jing Zhang, Juhua Liu, Dacheng Tao

摘要

自然场景中任意形状文本检测的现有方法面临两个关键问题：其一，文本实例内部存在间隙时容易产生断裂检测；其二，在复杂多变的背景上下文中，对任意形状文本实例的检测精度不足。为解决上述问题，本文提出一种名为实例内与实例间协同学习（Intra- and Inter-Instance Collaborative Learning, I3CL）的新方法。具体而言，针对第一个问题，我们设计了一种具有多感受野的高效卷积模块，能够协同学习文本实例内部局部与长距离范围内的字符与间隙特征表示，从而增强对断裂区域的感知能力。针对第二个问题，我们引入一种基于实例的Transformer模块，以挖掘不同文本实例之间的依赖关系，并设计一个全局上下文模块，用于捕捉共享背景中的语义信息。这两个模块协同作用，能够学习更具判别性的文本特征表示。通过上述设计，I3CL在统一的端到端可训练框架中，有效整合了实例内部与实例之间的依赖关系。此外，为充分挖掘未标注数据的潜力，我们进一步提出一种高效的半监督学习策略，通过集成策略利用伪标签进行模型优化。在不依赖额外技巧的前提下，实验结果表明，所提出的I3CL在三个具有挑战性的公开基准数据集上均取得了新的最先进性能：在ICDAR2019-ArT上达到77.5%的F-measure，在Total-Text上达到86.9%，在CTW-1500上达到86.4%。尤为突出的是，采用ResNeSt-101作为主干网络的I3CL在ICDAR2019-ArT排行榜上位列第一。相关源代码将公开于：https://github.com/ViTAE-Transformer/ViTAE-Transformer-Scene-Text-Detection。