
摘要
近年来,文本识别领域的研究取得了显著进展,推动了识别性能迈向新的高度。然而,长期以来,由于缺乏大规模人工标注的自然场景文本识别数据集,研究人员不得不依赖合成数据来训练文本识别模型。尽管合成数据集规模庞大(如最为著名的MJSynth和SynthTest数据集,均包含数百万张图像),但其多样性仍难以与真实场景数据集(如ICDAR等)相媲美。值得庆幸的是,近期发布的OpenImages V5数据集中的文本识别标注数据,不仅在样本数量上可与合成数据集比肩,且包含更具多样性的实例。我们采用该标注数据,并结合Yet Another Mask Text Spotter中的文本识别头(Text Recognition head)架构,取得了与当前最优(SOTA)方法相当的性能;在部分数据集上,甚至超越了以往的SOTA模型。本文还提出了一种新的文本识别模型,其代码已公开。