야외에서 곡선 텍스트 검출: 새로운 데이터셋과 새로운 해결책

최근 몇 년 동안 장면 텍스트 검출(scene text detection) 분야에서 큰 발전이 이루어졌습니다. 검출 방법은 축 정렬 사각형(axis-aligned rectangle)에서 회전된 사각형(rotated rectangle)으로, 그리고 더욱 발전하여 사변형(quadrangle)으로 진화하고 있습니다. 그러나 현재의 데이터셋에는 표지판, 제품 이름 등 실제 환경 이미지에서 자주 관찰되는 곡선 텍스트(curve text)가 매우 적게 포함되어 있습니다. 이에 따라 본 논문에서는 실제 환경에서 곡선 텍스트를 읽는 문제에 대한 관심을 높이기 위해, 1,500장의 이미지(훈련용 1,000장, 테스트용 500장)에 1만 개 이상의 텍스트 주석(annotation)을 포함하는 곡선 텍스트 데이터셋인 CTW1500을 구축하였습니다.본 데이터셋을 기반으로, 경험적 조합(empirical combination) 없이 직접 곡선 텍스트를 검출할 수 있는 다각형 기반 곡선 텍스트 검출기(Curve Text Detector, CTD)를 처음으로 제안합니다. 또한 반복적인 횡방향 및 종방향 오프셋 연결(Recurrent Transverse and Longitudinal Offset Connection, TLOC)을 원활하게 통합함으로써 제안된 방법은 위치 오프셋들 사이의 내재적 연결성을 학습할 수 있도록 단일 시스템(end-to-end trainable)으로 설계되었습니다. 이는 CTD가 독립적으로 점들을 예측하는 대신 문맥 정보(context information)를 탐색할 수 있게 하여 더 부드럽고 정확한 검출 결과를 제공합니다.또한 본 논문에서는 검출 정확도를 더욱 높이는 두 가지 간단하면서도 효과적인 후처리(post-processing) 방법인 비다각형 억제(Non-Polygon Suppress, NPS)와 다각형 비최대 억제(Polygonal Non-Maximum Suppression, PNMS)를 제안합니다. 더 나아가 본 논문에서 제안된 접근 방식은 추가적인 노력 없이 직사각형(rectangular) 또는 사변형(quadrilateral) 바운딩 박스와 함께 학습될 수 있도록 보편적으로 설계되었습니다.CTW-1500 데이터셋에서의 실험 결과는 경량(lightweight) 백본(backbone)만 사용해도 제안된 방법이 최신 기법(state-of-the-art methods)보다 크게 우수한 성능을 보임을 입증하였습니다. 곡선 또는 비곡선 부분 집합에서만 평가해도 CTD + TLOC는 여전히 최상의 결과를 달성하였습니다. 코드는 https://github.com/Yuliang-Liu/Curve-Text-Detector 에서 확인할 수 있습니다.