3달 전

자연 장면에서 임의의 형태를 가진 텍스트를 탐지하는 방법으로, 텍스트 스폟팅을 향상시킨다.

Qitong Wang, Yi Zheng, Margrit Betke
자연 장면에서 임의의 형태를 가진 텍스트를 탐지하는 방법으로, 텍스트 스폟팅을 향상시킨다.
초록

자연 장면 이미지(예: 고속도로 표지판 또는 상점 간판 등)에서 텍스트의 의미를 이해하는 것은 이미지 내 텍스트가 원근감에 의해 왜곡되었거나 글자가 예술적으로 왜곡된 경우 특히 도전적인 과제이다. 본 연구에서는 복잡한 배경을 가진 자연 장면 이미지에서 다양한 폰트, 형태, 방향의 텍스트를 동시에 탐지하고 인식할 수 있는 파이프라인 기반의 텍스트 스팟팅 프레임워크를 제안한다. 본 연구의 주요 기여는 텍스트 탐지 모듈로, UNet, Heatmap, Textfill의 약자인 UHT로 명명한 것이다. UHT는 UNet을 사용하여 후보 텍스트 영역에 대한 히트맵을 계산하고, 각 단어 주위에 타이트한 다각형 경계를 생성하기 위한 Textfill 알고리즘을 활용한다. 본 방법은 지도(annotation)에서 제공하는 텍스트 경계 다각형을 기반으로 얻은 진짜 히트맵을 사용하여 UNet을 학습시킨다. UHT를 기반으로 한 텍스트 스팟팅 프레임워크인 UHTA는 최신의 텍스트 인식 시스템 ASTER와 결합되어 구성된다. Total-Text, SCUT-CTW1500, MSRA-TD500, COCO-Text 등 네 가지 도전적이고 공개된 장면 텍스트 탐지 데이터셋에서의 실험 결과는 UHT가 다국어(가능한 회전 포함) 직선 텍스트뿐만 아니라 다양한 언어의 글꼴에서 곡선 텍스트까지도 효과적으로 탐지함을 보여주며, 뛰어난 일반화 능력을 입증한다. 특히 Total-Text 데이터셋에서 UHTA의 실험 결과는 네 가지 최첨단 텍스트 스팟팅 프레임워크 대비 F-측정치(F-measure)에서 최소 9.1퍼센트 포인트 이상 우수한 성능을 보였으며, 이는 UHTA가 실제 응용에서 완전한 텍스트 탐지 및 인식 시스템으로 활용될 수 있음을 시사한다.