PGNet: 포인트 집합 네트워크를 이용한 실시간 임의 형상 텍스트 스포팅

임의의 형태를 가진 텍스트 읽기(reading arbitrarily-shaped text)는 점차 증가하는 연구 관심을 받고 있다. 그러나 기존의 텍스트 스폿터(text spotters)는 대부분 두 단계(framework) 구조나 문자 기반(character-based) 방법에 기반하여 설계되어 있으며, 이는 비최대 억제(Non-Maximum Suppression, NMS), 관심 영역(Region-of-Interest, RoI) 연산, 또는 문자 수준의 레이블링(annotation)을 필요로 하는 단점을 지닌다. 본 논문에서는 이러한 문제를 해결하기 위해 실시간으로 임의의 형태 텍스트를 인식할 수 있는 새로운 완전 컨볼루션형 포인트 모음 네트워크(Point Gathering Network, PGNet)를 제안한다. PGNet은 단일 스팟(single-shot) 텍스트 스폿터로서, 제안된 PG-CTC 손실 함수를 통해 문자 수준의 레이블링 없이 픽셀 수준의 문자 분류 맵을 학습한다. PG-CTC 디코더를 활용하여 2차원 공간에서 고수준의 문자 분류 벡터를 수집하고, NMS 및 RoI 연산 없이 이를 텍스트 기호로 디코딩함으로써 높은 효율성을 보장한다. 더불어, 각 문자와 그 이웃 문자 간의 관계를 추론하는 그래프 정제 모듈(Graph Refinement Module, GRM)을 도입하여 초기 인식 결과를 최적화하고 엔드투엔드(end-to-end) 성능을 향상시켰다. 실험 결과, 제안한 방법은 경쟁력 있는 정확도를 달성하면서도 실행 속도를 크게 향상시킴을 입증하였다. 특히 Total-Text 데이터셋에서 46.7 FPS의 속도로 실행되어, 기존의 스폿터 대비 상당한 성능 우위를 보였다.