
초록
자연 환경 이미지에서 텍스트를 감지하고 인식하는 것은 어려운 과제이며 아직 완전히 해결되지 않았습니다. 최근 몇 년 동안 두 하위 과제(텍스트 감지와 텍스트 인식) 중 적어도 하나를 해결하려는 여러 새로운 시스템이 제안되었습니다. 본 논문에서는 STN-OCR을 소개합니다. 이는 자연 환경 텍스트 인식을 위한 반지도 학습 신경망의 한 단계로, 엔드투엔드(end-to-end) 방식으로 최적화될 수 있습니다. 대부분의 기존 연구들이 여러 개의 깊은 신경망과 여러 전처리 단계를 포함하고 있는 것과 달리, 우리는 자연 환경 이미지에서 텍스트 영역을 감지하고 그 내용을 인식하도록 반지도 방식으로 학습할 수 있는 단일 깊은 신경망의 사용을 제안합니다. STN-OCR은 공간 변환기 네트워크(spatial transformer network)와 텍스트 인식 네트워크를 통합하여 공동 학습하는 네트워크입니다. 공간 변환기 네트워크는 이미지 내에서 텍스트 영역을 감지하도록 학습할 수 있으며, 텍스트 인식 네트워크는 식별된 텍스트 영역의 내용을 인식합니다. 우리는 모델이 문자 및 문장 줄 감지와 인식 등 다양한 과제에서 어떻게 작동하는지를 조사하였습니다. 공개 벤치마크 데이터셋에 대한 실험 결과는 전체적인 네트워크 구조에 큰 변화 없이 다양한 과제를 처리할 수 있는 모델의 능력을 보여줍니다.