
초록
장면 텍스트 스포팅( scene-text spotting)은 자연 장면 이미지 상의 텍스트 영역을 예측하고 동시에 해당 텍스트 문자를 인식하는 작업이다. 최근 몇 년간 광범위한 응용 분야로 인해 이 작업에 많은 주목을 받고 있다. 기존의 연구는 주로 텍스트 영역 탐지 성능 향상에 집중되어 왔으며, 텍스트 인식 측면에는 상대적으로 소홀히 다뤄졌다. 그 결과, 탐지 정확도는 향상되었지만, 엔드 투 엔드(end-to-end) 정확도는 여전히 부족한 실정이다. 자연 장면 이미지 내 텍스트는 일반적으로 의미 없는 문자의 무작위 조합이 아니라 의미 있는 문자 조합, 즉 단어 형태로 나타나는 경향이 있다. 따라서 본 연구는 엔드 투 엔드 정확도, 특히 텍스트 인식 성능을 향상시키기 위해 장면 텍스트 스포팅을 위한 의미적 표현의 적대적 학습(A3S: Adversarial Learning of Semantic Representations for Scene Text Spotting)을 제안한다. A3S는 기존의 시각적 특징에 기반한 단순한 텍스트 인식을 넘어서, 탐지된 텍스트 영역 내에서 의미적 특징을 동시에 예측한다. 공개된 데이터셋을 활용한 실험 결과, 제안한 방법이 기존의 다양한 방법들보다 더 높은 정확도를 달성함을 확인할 수 있었다.