다중 방향 장면 텍스트 검출을 위한 코너 위치 추정 및 영역 분할

이전의 딥 러닝 기반 최신 장면 텍스트 검출 방법은 대략적으로 두 가지 범주로 분류할 수 있다. 첫 번째 범주는 장면 텍스트를 일반 객체의 한 종류로 취급하고, 일반 객체 검출 패러다임을 따르며 텍스트 박스 위치를 회귀(regression)하여 장면 텍스트를 위치시킨다. 그러나 이 방법은 임의 방향(arbitrary-orientation)과 큰 측정비(aspect ratios)를 가진 장면 텍스트에 대해 어려움을 겪는다. 두 번째 범주는 텍스트 영역을 직접 분할(segmentation)하지만, 대부분 복잡한 후처리(post processing)가 필요하다. 본 논문에서는 이러한 두 가지 방법의 아이디어를 결합하면서 그 단점을 피하는 방법을 제안한다. 우리는 텍스트 경계 상자(text bounding boxes)의 모서리 점(corner points)을 위치시키고, 상대적 위치(relative positions)에서 텍스트 영역을 분할함으로써 장면 텍스트를 검출하는 방법을 제안한다. 추론(inference) 단계에서는 샘플링 및 그룹화(sample and group corner points)를 통해 후보 박스(candidate boxes)가 생성되며, 이를 세그멘테이션 맵(segmentation maps)으로 점수화(scoring)하고 NMS(Non-Maximum Suppression)로 억제(suppressing)한다. 이전 방법들과 비교하여 우리의 방법은 자연스럽게 긴 방향성 텍스트(long oriented text)를 처리할 수 있으며, 복잡한 후처리가 필요하지 않다. ICDAR2013, ICDAR2015, MSRA-TD500, MLT 및 COCO-Text 데이터셋에서 수행된 실험은 제안된 알고리즘이 정확성과 효율성 모두에서 더 나은 또는 유사한 결과를 달성한다는 것을 보여준다. VGG16 기반으로 ICDAR2015에서 F-측도(F-measure) 84.3%, MSRA-TD500에서 81.5%의 성능을 나타냈다.