11일 전

TextScanner: 순차적인 문자 읽기를 통한 강건한 장면 텍스트 인식

Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai, Cong Yao
TextScanner: 순차적인 문자 읽기를 통한 강건한 장면 텍스트 인식
초록

딥러닝과 방대한 데이터의 발전에 힘입어, 최근 몇 년간 장면 텍스트 인식 기술은 급속한 발전을 이뤘다. 과거에는 RNN-attention 기반의 방법이 이 분야를 지배해왔으나, 특정 상황에서는 \textit{attention drift}라는 문제에 직면하였다. 최근 들어, 의미 분할 기반 알고리즘은 수평, 기울어진, 곡선 형태의 다양한 텍스트를 효과적으로 인식하는 데 성공하였다. 그러나 이러한 방법들은 분할 맵에 대한 임계치(thresholding) 처리에 크게 의존하기 때문에, 가짜 문자를 생성하거나 실제 문자를 놓치는 문제가 발생할 수 있다. 이러한 문제를 해결하기 위해 본 논문에서는 장면 텍스트 인식을 위한 새로운 접근법인 TextScanner을 제안한다. TextScanner는 다음과 같은 세 가지 특징을 갖는다: (1) 기본적으로 의미 분할 패밀리에 속하며, 문자 클래스, 위치, 순서에 대해 픽셀 단위의 다중 채널 분할 맵을 생성한다; (2) 동시에 RNN-attention 기반 방법과 유사하게, 맥락 모델링을 위해 RNN을 활용한다; (3) 또한 문자의 위치와 클래스에 대해 병렬로 예측하며, 문자가 올바른 순서로 전사되도록 보장한다. 표준 벤치마크 데이터셋에서 수행한 실험 결과, TextScanner는 기존 최고 수준의 방법들을 모두 능가함을 입증하였다. 더불어, 중국어 텍스트와 같은 더 어려운 텍스트 인식 및 목표 문자와의 정렬 능력에서도 뛰어난 성능을 보였다.

TextScanner: 순차적인 문자 읽기를 통한 강건한 장면 텍스트 인식 | 최신 연구 논문 | HyperAI초신경