
摘要
现有的文本检测技术可大致分为两大类:基于分割的方法与基于回归的方法。基于分割的模型在应对字体变化方面具有更强的鲁棒性,但通常需要复杂的后处理步骤,导致计算开销较高;而基于回归的方法虽能实现实例级的直接预测,但由于依赖高层语义表示,其在鲁棒性与数据效率方面存在局限。在本研究中,我们提出SRFormer——一种基于DETR架构的统一模型,融合了分割与回归的优势,旨在协同利用分割表示固有的鲁棒性,以及实例级回归所带来的简洁后处理特性。我们的实验分析表明,初始解码层即可获得性能良好的分割预测结果。基于此观察,我们仅在前几层解码器中引入分割分支,并在后续层中采用渐进式的回归精修机制,从而在显著降低掩码相关计算负担的同时,实现性能的提升。此外,我们提出一种基于掩码的查询增强模块(Mask-informed Query Enhancement)。该模块将分割结果作为自然的软区域感兴趣区域(soft-ROI),用于池化并提取具有鲁棒性的像素特征,进而用于增强和丰富实例查询。在多个主流基准上的大量实验验证表明,所提方法展现出卓越的鲁棒性、优异的训练效率与数据利用效率,并达到了当前最先进的检测性能。相关代码已开源,地址为:https://github.com/retsuh-bqw/SRFormer-Text-Det。