
초록
자연 장면 이미지 내 텍스트를 탐지하고 인식하는 것은 여전히 도전적인 과제이지만, 완전히 해결되지 않은 상태이다. 최근 들어 텍스트 탐지 및 텍스트 인식이라는 두 하위 과제 중 적어도 하나를 해결하려는 여러 새로운 시스템이 제안되었다. 본 논문에서는 자연 장면 이미지 내 텍스트 탐지 및 인식을 위한 반감독 학습 기반의 신경망인 SEE를 제안한다. 이 모델은 엔드투엔드(end-to-end)로 최적화가 가능한 구조를 갖추고 있다. 기존의 대부분의 연구들은 여러 개의 심층 신경망과 복수의 사전 처리 단계를 포함하고 있으나, 본 연구에서는 단일 심층 신경망을 사용하여 자연 이미지 내 텍스트를 반감독 방식으로 탐지하고 인식하도록 학습하는 새로운 접근법을 제안한다. SEE는 이미지 내 텍스트 영역을 탐지할 수 있는 공간 변환망(Spatial Transformer Network)과 식별된 텍스트 영역을 입력으로 받아 텍스트 내용을 인식하는 텍스트 인식망(Text Recognition Network)을 통합하여 공동으로 학습하는 구조를 갖추고 있다. 본 논문에서는 제안된 새로운 접근법의 핵심 아이디어를 제시하고, 표준 벤치마크 데이터셋에서 수행한 다양한 실험을 통해 그 타당성과 효과성을 입증하며, 경쟁력 있는 성능을 달성함을 보여준다.