8일 전
TextDragon: 임의의 형태 텍스트 탐지를 위한 엔드투엔드 프레임워크
{ Cheng-Lin Liu, Xu-Yao Zhang, Fei Yin, Wenhao He, Wei Feng}

초록
기존의 대부분의 텍스트 스팟팅 방법들은 수평 또는 방향성 텍스트에 집중하거나, 문자 수준의 레이블을 사용하여 임의의 형태의 텍스트를 탐지한다. 본 논문에서는 훈련 시 단어/라인 수준의 레이블만을 사용하여, 임의의 형태의 텍스트를 엔드투엔드 방식으로 탐지하고 인식하는 새로운 텍스트 스팟팅 프레임워크를 제안한다. TextSnake(텍스트 스네이크)라는 이름에서 영감을 받아, 이는 단순한 탐지 모델이지만, 제안하는 텍스트 스팟팅 프레임워크를 TextDragon(텍스트 드래곤)이라 명명한다. TextDragon에서는 텍스트의 형태를 연속된 사각형 시퀀스로 표현하는 텍스트 탐지기(텍스트 디텍터)를 설계하여 임의의 형태의 텍스트를 처리할 수 있도록 했다. 특성 맵에서 임의의 형태의 텍스트 영역을 추출하기 위해, 새로운 미분 가능한 연산자인 RoISlide를 제안한다. 이 RoISlide는 임의의 형태 텍스트 탐지와 인식을 연결하는 핵심 요소이다. RoISlide를 통해 추출된 특징을 기반으로, CNN과 CTC 기반의 텍스트 인식기(텍스트 리커그나이저)를 도입함으로써, 문자의 위치 레이블링 없이도 프레임워크가 작동할 수 있도록 했다. 제안한 방법은 곡선 텍스트 벤치마크인 CTW1500과 Total-Text에서 최신 기술 수준의 성능을 달성하였으며, ICDAR 2015 데이터셋에서도 경쟁력 있는 결과를 보였다.