6 个月前

摘要

现有的文本检测技术可大致分为两大类：基于分割的方法与基于回归的方法。基于分割的模型在应对字体变化方面具有更强的鲁棒性，但通常需要复杂的后处理步骤，导致计算开销较高；而基于回归的方法虽能实现实例级的直接预测，但由于依赖高层语义表示，其在鲁棒性与数据效率方面存在局限。在本研究中，我们提出SRFormer——一种基于DETR架构的统一模型，融合了分割与回归的优势，旨在协同利用分割表示固有的鲁棒性，以及实例级回归所带来的简洁后处理特性。我们的实验分析表明，初始解码层即可获得性能良好的分割预测结果。基于此观察，我们仅在前几层解码器中引入分割分支，并在后续层中采用渐进式的回归精修机制，从而在显著降低掩码相关计算负担的同时，实现性能的提升。此外，我们提出一种基于掩码的查询增强模块（Mask-informed Query Enhancement）。该模块将分割结果作为自然的软区域感兴趣区域（soft-ROI），用于池化并提取具有鲁棒性的像素特征，进而用于增强和丰富实例查询。在多个主流基准上的大量实验验证表明，所提方法展现出卓越的鲁棒性、优异的训练效率与数据利用效率，并达到了当前最先进的检测性能。相关代码已开源，地址为：https://github.com/retsuh-bqw/SRFormer-Text-Det。

源 PDF