11일 전

실시간 장면 텍스트 탐지: 미분 가능한 이진화를 이용한 방법

Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, Xiang Bai
실시간 장면 텍스트 탐지: 미분 가능한 이진화를 이용한 방법
초록

최근 들어, 다양한 형태(예: 곡선 텍스트 포함)의 장면 텍스트를 보다 정확하게 설명할 수 있다는 장점으로 인해, 세그멘테이션 기반 방법이 장면 텍스트 탐지 분야에서 매우 인기를 끌고 있다. 그러나 세그멘테이션 기반 탐지에서는 이진화 후처리가 필수적이며, 이는 세그멘테이션 모델이 생성한 확률 맵을 텍스트의 경계 박스 또는 영역으로 변환하는 과정이다. 본 논문에서는 세그멘테이션 네트워크 내에서 이진화 과정을 수행할 수 있는 모듈인 '가변 이진화(Differentiable Binarization, DB)'를 제안한다. DB 모듈과 함께 최적화되는 세그멘테이션 네트워크는 이진화를 위한 임계값을 자동으로 적응적으로 설정할 수 있어, 후처리 과정을 간소화함과 동시에 텍스트 탐지 성능을 향상시킨다. 간단한 세그멘테이션 네트워크 기반으로, DB의 성능 향상을 다섯 개의 벤치마크 데이터셋에서 검증하였으며, 탐지 정확도와 속도 측면에서 일관되게 최고 수준의 성능을 달성하였다. 특히, 경량 백본을 사용할 경우 DB에 의해 가져오는 성능 향상이 두드러지며, 탐지 정확도와 효율성 사이의 이상적인 균형을 탐색할 수 있다. 구체적으로 ResNet-18을 백본으로 사용할 경우, MSRA-TD500 데이터셋에서 F-측정치(F-measure) 82.8을 달성하면서도 62 FPS의 속도로 작동한다. 코드는 다음 주소에서 확인할 수 있다: https://github.com/MhLiao/DB

실시간 장면 텍스트 탐지: 미분 가능한 이진화를 이용한 방법 | 최신 연구 논문 | HyperAI초신경