2달 전

자동 교정을 이용한 강건한 장면 텍스트 인식

Baoguang Shi; Xinggang Wang; Pengyuan Lyu; Cong Yao; Xiang Bai
자동 교정을 이용한 강건한 장면 텍스트 인식
초록

자연 이미지에서 텍스트를 인식하는 것은 해결되지 않은 많은 문제를 가지고 있는 어려운 작업입니다. 문서와 달리 자연 이미지의 단어들은 관점 왜곡, 곡선 문자 배치 등으로 인해 불규칙한 형태를 가지는 경우가 많습니다. 우리는 이러한 불규칙한 텍스트에 견고하게 대응할 수 있는 RARE (Robust text recognizer with Automatic REctification, 자동 정합을 통한 견고한 텍스트 인식기)라는 인식 모델을 제안합니다. RARE는 Spatial Transformer Network (STN, 공간 변환망)과 Sequence Recognition Network (SRN, 시퀀스 인식망)로 구성된 특별히 설계된 깊은 신경망입니다. 테스트 시, 예측된 Thin-Plate-Spline (TPS, 얇은 판 스플라인) 변환을 통해 이미지를 먼저 더 "읽기 쉬운" 형태로 정합하고, 이후 SRN이 시퀀스 인식 접근법을 통해 텍스트를 인식합니다. 우리는 이 모델이 관점 왜곡 텍스트와 곡선 텍스트 등을 포함하여 여러 유형의 불규칙한 텍스트를 인식할 수 있음을 보여줍니다. RARE는 end-to-end 방식으로 학습 가능하며, 이미지와 관련된 텍스트 라벨만 필요하므로 실제 시스템에서 모델을 학습시키고 배포하기 쉽습니다. 몇 가지 벤치마크에서 최상 또는 매우 경쟁력 있는 성능을 달성함으로써 제안된 모델의 효과성이 잘 입증되었습니다.

자동 교정을 이용한 강건한 장면 텍스트 인식 | 최신 연구 논문 | HyperAI초신경