자연 장면에서 임의의 형태를 가진 텍스트를 탐지하는 방법으로, 텍스트 스폟팅을 향상시킨다.

자연 장면 이미지(예: 고속도로 표지판 또는 상점 간판 등)에서 텍스트의 의미를 이해하는 것은 이미지 내 텍스트가 원근감에 의해 왜곡되었거나 글자가 예술적으로 왜곡된 경우 특히 도전적인 과제이다. 본 연구에서는 복잡한 배경을 가진 자연 장면 이미지에서 다양한 폰트, 형태, 방향의 텍스트를 동시에 탐지하고 인식할 수 있는 파이프라인 기반의 텍스트 스팟팅 프레임워크를 제안한다. 본 연구의 주요 기여는 텍스트 탐지 모듈로, UNet, Heatmap, Textfill의 약자인 UHT로 명명한 것이다. UHT는 UNet을 사용하여 후보 텍스트 영역에 대한 히트맵을 계산하고, 각 단어 주위에 타이트한 다각형 경계를 생성하기 위한 Textfill 알고리즘을 활용한다. 본 방법은 지도(annotation)에서 제공하는 텍스트 경계 다각형을 기반으로 얻은 진짜 히트맵을 사용하여 UNet을 학습시킨다. UHT를 기반으로 한 텍스트 스팟팅 프레임워크인 UHTA는 최신의 텍스트 인식 시스템 ASTER와 결합되어 구성된다. Total-Text, SCUT-CTW1500, MSRA-TD500, COCO-Text 등 네 가지 도전적이고 공개된 장면 텍스트 탐지 데이터셋에서의 실험 결과는 UHT가 다국어(가능한 회전 포함) 직선 텍스트뿐만 아니라 다양한 언어의 글꼴에서 곡선 텍스트까지도 효과적으로 탐지함을 보여주며, 뛰어난 일반화 능력을 입증한다. 특히 Total-Text 데이터셋에서 UHTA의 실험 결과는 네 가지 최첨단 텍스트 스팟팅 프레임워크 대비 F-측정치(F-measure)에서 최소 9.1퍼센트 포인트 이상 우수한 성능을 보였으며, 이는 UHTA가 실제 응용에서 완전한 텍스트 탐지 및 인식 시스템으로 활용될 수 있음을 시사한다.