효율적이고 정확한 임의 형태 텍스트 검출을 위한 픽셀 집계 네트워크

장면 텍스트 검출은 장면 텍스트 읽기 시스템의 중요한 단계로, 합성곱 신경망(CNN)을 통해 빠른 발전을 이루어냈습니다. 그럼에도 불구하고, 실제 응용 프로그램에 배포하는 데 있어 두 가지 주요 과제가 여전히 존재합니다. 첫 번째 문제는 속도와 정확도 사이의 균형입니다. 두 번째 문제는 임의 형태의 텍스트 인스턴스를 모델링하는 것입니다. 최근에는 임의 형태의 텍스트 검출을 위한 몇 가지 방법이 제안되었지만, 이들 대부분은 전체 파이프라인의 속도를 고려하지 않아 실용적인 응용에서 부족한 면이 있습니다.본 논문에서는 효율적이고 정확한 임의 형태의 텍스트 검출기인 픽셀 집합 네트워크(Pixel Aggregation Network, PAN)를 제안합니다. PAN은 저 컴퓨테이션 비용의 분할 머리(segmentation head)와 학습 가능한 후처리(post-processing) 기능을 갖추고 있습니다. 보다 구체적으로, 분할 머리는 피처 피라미드 강화 모듈(Feature Pyramid Enhancement Module, FPEM)과 피처 융합 모듈(Feature Fusion Module, FFM)으로 구성됩니다. FPEM은 다단계 정보를 도입하여 더 나은 분할을 유도하는 캐스케이드 가능한 U형 모듈입니다. FFM은 서로 다른 깊이의 FPEM들이 제공하는 특징들을 최종적인 분할 특징으로 통합합니다. 학습 가능한 후처리는 예측된 유사성 벡터(similarity vectors)를 통해 텍스트 픽셀을 정확하게 집합하는 픽셀 집합(Pixel Aggregation, PA) 알고리즘으로 구현됩니다.여러 표준 벤치마크에서 수행된 실험들은 제안된 PAN의 우수성을 입증하였습니다. 특히 본 방법론은 CTW1500 데이터셋에서 84.2 FPS로 경쟁력 있는 F-측정값(F-measure) 79.9%를 달성하였으며, 이는 주목할 만한 성과입니다.