6 个月前

摘要

多方向场景文本检测近年来受到广泛关注。以往的方法通常直接预测文本单词或文本行，多采用四边形（quadrilateral）形状进行表示。然而，这些方法往往忽视了标签一致性的重要性，而标签一致性对于保持训练过程的稳定性至关重要，尤其是在数据量庞大的情况下。为此，本文提出一种新方法——无序框离散化（Orderless Box Discretization, OBD），该方法首先将四边形边界框离散化为若干关键边，以涵盖所有可能的水平与垂直位置信息。为精确恢复顶点坐标，我们设计了一种简洁而高效的关键匹配机制，用于重构四边形边界框。该方法有效解决了此前存在的歧义问题，显著提升了模型的学习效果。通过大量消融实验，我们从定量角度验证了所提方法的有效性。更重要的是，基于OBD框架，本文对一系列优化策略的影响进行了深入分析，为后续构建顶尖文本检测器提供了有益启示。结合OBD与这些有效改进策略，我们在多个主流基准数据集上均取得了当前最优性能，涵盖ICDAR 2015与MLT。此外，该方法在最近举行的ICDAR2019鲁棒阅读挑战赛（Robust Reading Challenge）中，于“路牌中文文本检测”任务中荣获第一名，进一步证明了其卓越的性能表现。相关代码已开源，地址为：https://git.io/TextDet。

源 PDF