11 天前

无序盒子离散化网络在多方向场景文本检测中的能力探索

Yuliang Liu, Tong He, Hao Chen, Xinyu Wang, Canjie Luo, Shuaitao Zhang, Chunhua Shen, Lianwen Jin
无序盒子离散化网络在多方向场景文本检测中的能力探索
摘要

多方向场景文本检测近年来受到广泛关注。以往的方法通常直接预测文本单词或文本行,多采用四边形(quadrilateral)形状进行表示。然而,这些方法往往忽视了标签一致性的重要性,而标签一致性对于保持训练过程的稳定性至关重要,尤其是在数据量庞大的情况下。为此,本文提出一种新方法——无序框离散化(Orderless Box Discretization, OBD),该方法首先将四边形边界框离散化为若干关键边,以涵盖所有可能的水平与垂直位置信息。为精确恢复顶点坐标,我们设计了一种简洁而高效的关键匹配机制,用于重构四边形边界框。该方法有效解决了此前存在的歧义问题,显著提升了模型的学习效果。通过大量消融实验,我们从定量角度验证了所提方法的有效性。更重要的是,基于OBD框架,本文对一系列优化策略的影响进行了深入分析,为后续构建顶尖文本检测器提供了有益启示。结合OBD与这些有效改进策略,我们在多个主流基准数据集上均取得了当前最优性能,涵盖ICDAR 2015与MLT。此外,该方法在最近举行的ICDAR2019鲁棒阅读挑战赛(Robust Reading Challenge)中,于“路牌中文文本检测”任务中荣获第一名,进一步证明了其卓越的性能表现。相关代码已开源,地址为:https://git.io/TextDet。

无序盒子离散化网络在多方向场景文本检测中的能力探索 | 最新论文 | HyperAI超神经