
자연 장면 내 임의의 형태 텍스트 감지는 매우 도전적인 작업이다. 기존의 텍스트 감지 기법들은 제한된 특징 표현에 기반하여 텍스트를 인식하는 반면, 본 연구에서는 더 � rich한 특징을 융합하여 텍스트 감지에 활용할 수 있는 새로운 프레임워크인 TextFuseNet을 제안한다. 구체적으로, 문자 수준, 단어 수준, 전반적 수준의 세 가지 수준의 특징 표현을 통해 텍스트를 인식하고, 이를 효과적으로 통합할 수 있는 새로운 텍스트 표현 융합 기법을 도입함으로써, 유연한 임의 형태 텍스트 감지의 정확도를 향상시킨다. 다중 수준의 특징 표현은 텍스트를 개별 문자로 분해함으로써 텍스트를 충분히 잘 설명하면서도, 전체적인 의미 정보를 유지할 수 있다. TextFuseNet은 다중 경로 융합 아키텍처를 사용하여 다양한 수준의 텍스트 특징을 수집하고 융합함으로써, 서로 다른 표현 간의 효과적인 정렬과 통합을 가능하게 한다. 실질적으로, 제안된 TextFuseNet은 임의 형태 텍스트에 대해 보다 적절한 특징 표현을 학습할 수 있으며, 오류 탐지(false positive)를 억제하고 더 정확한 감지 결과를 도출할 수 있다. 또한, 문자 수준의 레이블이 부족한 데이터셋에 대해서도 약한 감독(weak supervision) 방식으로 학습이 가능하다는 장점이 있다. 여러 데이터셋에 대한 실험 결과, 제안하는 TextFuseNet은 최신 기술 수준(SOTA)의 성능을 달성하였으며, ICDAR2013에서는 F-측정치 94.3%, ICDAR2015에서는 92.1%, Total-Text에서는 87.1%, CTW-1500에서는 86.6%의 성능을 각각 기록하였다.