MixNet: 자연 환경에서 도전적인 장면 텍스트를 정확하게 탐지하기 위한 노력

실제 환경에서 소규모 장면 텍스트 인스턴스를 탐지하는 것은 특히 도전적인 과제이며, 비정규적인 위치와 이상적인 조명 조건이 아닌 환경에서 탐지 오류가 자주 발생한다. 본 논문에서는 CNN과 Transformer의 장점을 결합한 하이브리드 아키텍처인 MixNet을 제안한다. MixNet은 텍스트의 방향, 스타일, 조명 조건에 관계없이 어려운 자연 장면에서 소규모 텍스트를 정확하게 탐지할 수 있다. MixNet은 두 가지 핵심 모듈로 구성된다: (1) 백본으로 사용되는 특징 셔플 네트워크(Feature Shuffle Network, FSNet)와 (2) 장면 텍스트의 1차원 만다폴(manifold) 제약을 활용하는 중심 트랜스포머 블록(Central Transformer Block, CTBlock). 먼저 FSNet 내에서 다중 스케일 간 특징 교환을 촉진하기 위한 새로운 특징 셔플 전략을 도입하여, 고해상도 특징을 생성함으로써 기존의 인기 있는 ResNet 및 HRNet보다 우수한 성능을 달성한다. FSNet 백본은 PAN, DB, FAST를 포함한 다양한 기존 텍스트 탐지 방법들에 비해 뚜렷한 성능 향상을 보였다. 이후, 텍스트 영역의 중앙축(medial axis)과 유사한 중심선 기반 특징을 활용하는 보완적인 CTBlock을 설계하였으며, 소규모 장면 텍스트가 서로 가까이 존재하는 어려운 상황에서 윤곽 기반 접근법보다 우수한 성능을 보임을 입증하였다. 광범위한 실험 결과를 통해, FSNet과 CTBlock을 결합한 MixNet이 여러 장면 텍스트 탐지 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성함을 확인하였다.