8 天前
TPSNet:基于薄板样条的逆向思维用于任意形状场景文本表示
Wei Wang, Yu Zhou, Jiahao Lv, Dayan Wu, Guoqing Zhao, Ning Jiang, Weiping Wang

摘要
近年来,场景文本检测与识别的研究重点逐渐转向任意形状文本,其中文本形状的表示问题成为核心挑战。我们认为,理想的形状表示应具备紧凑性、完整性、高效性,并且能够为后续识别任务提供可复用的表达。然而,以往的表示方法在至少一个方面存在缺陷。薄板样条(Thin-Plate-Spline, TPS)变换在场景文本识别任务中已取得显著成功。受此启发,我们反向思考其应用方式,巧妙地将TPS作为一种精巧的表示方法,用于任意形状文本的建模。该TPS表示具有紧凑、完整且高效的特点;通过预测得到的TPS参数,可直接将检测到的文本区域校正为近似水平方向,从而有效辅助后续识别过程。为进一步挖掘TPS表示的潜力,本文提出边界对齐损失(Border Alignment Loss)。基于上述设计,我们构建了文本检测器TPSNet,该模型可便捷地扩展为端到端的文本定位器(text spotter)。在多个公开基准数据集上的大量实验与消融分析表明,所提出的文本表示方法及定位框架具有显著的有效性与优越性。特别地,在Art数据集上,TPSNet实现了检测F-Measure提升4.4%(从74.0%提升至78.4%);在Total-Text数据集上,端到端文本定位F-Measure提升5.0%(从73.5%提升至78.5%),性能提升幅度显著,且无需依赖额外技巧或复杂组件。