텍스트 필드: 비정규 장면 텍스트 검출을 위한 깊은 방향 필드 학습

장면 텍스트 검출은 장면 텍스트 읽기 시스템의 중요한 단계입니다. 주요 도전 과제는 크기와 종횡비의 크게 변하는 특성, 임의의 방향과 형태에 있습니다. 최근 딥러닝의 발전으로 인해 다방향 텍스트 검출에서 뛰어난 성능이 달성되었습니다. 그러나, 수평 바운딩 박스, 회전된 사각형, 또는 사변형 등의 제한적인 텍스트 표현 방식 때문에 곡선 텍스트를 검출할 때 성능이 급격히 저하됩니다. 자연 환경에서 실제로 매우 일반적인 곡선 텍스트를 검출하는 것은 큰 관심사입니다. 본 논문에서는 불규칙한 장면 텍스트를 검출하기 위한 새로운 텍스트 검출기인 TextField를 제시합니다. 특히, 각 텍스트 점에서 가장 가까운 텍스트 경계로부터 멀어지는 방향을 나타내는 방향 필드(direction field)를 학습합니다. 이 방향 필드는 두 차원 벡터로 구성된 이미지로 표현되며, 완전 컨볼루션 신경망(Fully Convolutional Neural Network)을 통해 학습됩니다. 이는 이진 텍스트 마스크와 인접한 텍스트 인스턴스를 구분하는 데 사용되는 방향 정보를 모두 인코딩하며, 전통적인 분할 기반 접근법에서는 이러한 작업이 어려웠습니다. 학습된 방향 필드를 기반으로 간단하면서도 효과적인 형태학적 후처리(morphological-based post-processing) 방법을 적용하여 최종 검출 결과를 얻습니다. 실험 결과, 제안된 TextField는 Total-Text와 CTW1500라는 두 개의 곡선 텍스트 데이터셋에서 각각 28%와 8%의 큰 마진으로 기존 최고 수준의 방법들을 크게 능가하였으며, 다방향 데이터셋인 ICDAR 2015와 MSRA-TD500에서도 매우 경쟁력 있는 성능을 보였습니다. 또한, TextField는 미처 보지 못한 데이터셋에도 일반화하는 데 강건함을 보였습니다. 코드는 https://github.com/YukangWang/TextField에서 제공됩니다.