복잡한 환경에서 합성곱 신경망을 이용한 텍스트 읽기

이 연구에서는 자연 환경 이미지에서 텍스트를 위치 추정하고 인식하는(end-to-end system for text spotting) 시스템과 텍스트 기반 이미지 검색 시스템을 제시합니다. 이 시스템은 탐지를 위한 영역 제안 메커니즘(region proposal mechanism)과 인식을 위한 딥 컨볼루션 신경망(deep convolutional neural networks)을 기반으로 합니다. 우리의 파이프라인은 높은 재현율(recall)을 보장하기 위해 보완적인 제안 생성 기술(complementary proposal generation techniques)의 새로운 조합을 사용하며, 이후 필터링 단계를 통해 정밀도(precision)를 개선합니다. 제안된 영역의 인식 및 순위 결정을 위해, 우리는 과거의 문자 분류기(character classifier) 기반 시스템과 달리 전체 제안 영역에 대한 단어 인식(word recognition)을 동시에 수행하도록 매우 큰 컨볼루션 신경망을 학습시킵니다. 이러한 네트워크는 합성 텍스트 생성 엔진(synthetic text generation engine)으로 생성된 데이터만으로 학습되며, 사람에 의한 라벨링 데이터가 필요하지 않습니다.우리 파이프라인의 각 단계를 분석한 결과, 전반적으로 최신 수준(state-of-the-art performance)의 성능을 보임을 확인할 수 있었습니다. 우리는 여러 표준 end-to-end 텍스트 스포팅 벤치마크와 텍스트 기반 이미지 검색 데이터셋에서 철저한 실험(rigorous experiments)을 수행하여 모든 이전 방법보다 크게 개선된 성능을 입증하였습니다. 마지막으로, 우리 텍스트 스포팅 시스템의 실제 응용 사례로 수천 시간에 걸친 뉴스 영상을 텍스트 쿼리를 통해 즉시 검색할 수 있는 애플리케이션을 소개합니다.