한 달 전
Mask TextSpotter: 임의의 형태로 텍스트를 인식하는 엔드투엔드 학습 가능한 신경망
Pengyuan Lyu; Minghui Liao; Cong Yao; Wenhao Wu; Xiang Bai

초록
최근, 깊은 신경망 기반 모델이 장면 텍스트 검출 및 인식 분야를 주도하고 있습니다. 본 논문에서는 자연 이미지에서 텍스트 검출과 인식을 동시에 수행하는 문제인 장면 텍스트 스포팅(scene text spotting)에 대해 연구하였습니다. 이 논문에서는 end-to-end로 학습 가능한 신경망 모델을 제안합니다. 제안된 모델은 Mask R-CNN이라는 최근 발표된 연구에서 영감을 얻어 Mask TextSpotter라는 이름으로 명명되었습니다. 이전의 end-to-end로 학습 가능한 깊은 신경망 방법들과는 달리, Mask TextSpotter는 의미 분할(semantic segmentation)을 통해 정확한 텍스트 검출과 인식을 획득하는 간단하고 부드러운 end-to-end 학습 절차를 활용합니다. 또한, 곡선 텍스트와 같은 불규칙한 형태의 텍스트 인스턴스를 처리하는 데 있어 이전 방법들보다 우수합니다. ICDAR2013, ICDAR2015 및 Total-Text 데이터셋에서 수행된 실험 결과, 제안된 방법이 장면 텍스트 검출과 end-to-end 텍스트 인식 작업 모두에서 최고 수준의 성능을 달성함을 보여주었습니다.