
초록
최근 텍스트 인식 분야의 연구들은 인식 성능을 새로운 수준으로 끌어올렸다. 그러나 오랫동안 자연 텍스트 인식 데이터셋의 대규모 인간 라벨링 데이터 부족으로 인해 연구자들은 텍스트 인식 모델 훈련에 합성 데이터를 사용해 왔다. 비록 합성 데이터셋은 매우 크기는 하나(가장 유명한 두 합성 데이터셋인 MJSynth와 SynthTest는 각각 수백만 장의 이미지를 포함), 자연 데이터셋(예: ICDAR 등)과 비교했을 때 다양성 측면에서는 부족할 수 있다. 다행히 최근 공개된 OpenImages V5 데이터셋의 텍스트 인식 라벨링 데이터는 합성 데이터셋과 유사한 수준의 샘플 수를 보유하고 있으며, 더 풍부한 다양성을 제공한다. 우리는 이 라벨링 데이터를 활용하여 Yet Another Mask Text Spotter에서 제안한 텍스트 인식 헤드 아키텍처를 사용하여 기존 최고 성능(SOTA) 모델과 비슷한 성능을 달성했으며, 일부 데이터셋에서는 기존 SOTA 모델을 넘어서는 결과도 얻었다. 본 논문에서는 또한 새로운 텍스트 인식 모델을 제안한다. 해당 모델의 코드는 공개되어 있다.