11일 전
실시간 시나리오 텍스트 탐지: 미분 가능한 이진화 및 적응형 스케일 융합
Minghui Liao, Zhisheng Zou, Zhaoyi Wan, Cong Yao, Xiang Bai

초록
최근 들어, 픽셀 수준의 설명 능력을 바탕으로 임의의 형태와 극단적인 종횡비를 가진 텍스트 인스턴스를 효과적으로 탐지할 수 있다는 장점으로 인해, 세그멘테이션 기반의 장면 텍스트 탐지 방법이 큰 주목을 받고 있다. 그러나 기존의 대부분의 세그멘테이션 기반 접근법은 복잡한 후처리 알고리즘과 세그멘테이션 모델의 스케일 강인성 측면에서 한계를 가지고 있다. 특히 후처리 알고리즘은 모델 최적화와 별도로 운영되며, 계산 비용이 크고, 스케일 강인성은 주로 다중 스케일 특징 맵을 직접 병합함으로써 강화된다. 본 논문에서는 후처리 과정에서 가장 중요한 단계 중 하나인 이진화 과정을 세그멘테이션 네트워크 내에 통합하는 Differentiable Binarization(DB) 모듈을 제안한다. 제안된 DB 모듈과 함께 최적화되는 세그멘테이션 네트워크는 보다 정확한 출력을 생성할 수 있으며, 간단한 파이프라인 구조로도 텍스트 탐지 정확도를 향상시킬 수 있다. 또한, 다양한 스케일의 특징을 적응적으로 병합함으로써 스케일 강인성을 향상시키는 효율적인 Adaptive Scale Fusion(ASF) 모듈을 제안한다. 제안된 DB 및 ASF 모듈을 세그멘테이션 네트워크와 결합함으로써, 제안하는 장면 텍스트 탐지기는 다섯 개의 표준 벤치마크에서 탐지 정확도와 속도 측면에서 일관되게 최신 기술 수준(SOTA)의 성능을 달성한다.