2달 전
TextSnake: 임의의 형태를 가진 텍스트 검출을 위한 유연한 표현 방법
Long, Shangbang ; Ruan, Jiaqiang ; Zhang, Wenjie ; He, Xin ; Wu, Wenhao ; Yao, Cong

초록
깊은 신경망과 대규모 데이터셋을 기반으로, 장면 텍스트 검출 방법은 최근 몇 년 동안 크게 발전하여 다양한 표준 벤치마크에서 성능 기록을 지속적으로 갱신하고 있습니다. 그러나 텍스트를 설명하기 위해 채택된 표현 방식(축 정렬 사각형, 회전 사각형 또는 사변형)의 제한으로 인해, 실제 환경에서 매우 일반적인 자유 형상의 텍스트 인스턴스, 예를 들어 곡선 텍스트와 같은 경우에 대해 기존 방법이 부족할 수 있습니다. 이 문제를 해결하기 위해, 우리는 가로, 기울어진 및 곡선 형태의 텍스트 인스턴스를 효과적으로 표현할 수 있는 더 유연한 표현 방식인 TextSnake을 제안합니다. TextSnake에서는 각 텍스트 인스턴스가 대칭 축 중심에 위치한 순서대로 겹쳐진 원판들의 시퀀스로 설명되며, 각 원판은 잠재적으로 변동 가능한 반지름과 방향성을 갖습니다. 이러한 기하학적 속성은 완전 합성곱 네트워크(Fully Convolutional Network, FCN) 모델을 통해 추정됩니다. 실험 결과, TextSnake 기반의 텍스트 검출기는 자연 이미지에서 곡선 텍스트에 특별히 중점을 둔 두 개의 최신 벤치마크인 Total-Text와 SCUT-CTW1500에서 최고 수준 또는 유사한 성능을 보였으며, 널리 사용되는 ICDAR 2015와 MSRA-TD500 데이터셋에서도 마찬가지입니다. 특히, TextSnake은 Total-Text에서 F-측도(F-measure) 면에서 베이스라인보다 40% 이상 우수한 성능을 보였습니다.