ABCNet v2: 실시간 엔드투엔드 텍스트 스폿팅을 위한 적응형 베지어 곡선 네트워크

엔드투엔드 텍스트 스팟팅(End-to-end text-spotting)은 탐지와 인식을 통합된 프레임워크 내에서 수행함으로써 두 보완적인 작업의 단순화를 목표로 하여 점점 더 많은 주목을 받고 있다. 특히 임의 형태의 텍스트 인스턴스를 처리할 때 여전히 해결되지 않은 과제로 남아 있다. 기존의 방법들은 대체로 두 가지 유형으로 나뉘며, 문자 기반(characters-based) 및 세그멘테이션 기반(segmentation-based) 방법으로 구분된다. 이들은 비구조적인 출력을 유발함에 따라 문자 수준의 레이블링과/또는 복잡한 후처리를 종종 필요로 한다. 본 연구에서는 Adaptive Bezier Curve Network v2(ABCNet v2)를 제안함으로써 엔드투엔드 텍스트 스팟팅 문제를 해결한다. 본 연구의 주요 기여는 네 가지이다. 첫째, 본 연구는 처음으로 매개변수화된 베지어 곡선을 이용해 임의 형태의 텍스트를 적응적으로 피팅하는 방식을 제안한다. 이는 세그멘테이션 기반 방법에 비해 구조화된 출력과 제어 가능한 표현을 동시에 제공할 수 있다. 둘째, 임의 형태의 텍스트 인스턴스에 대해 정확한 컨볼루션 특징을 추출하기 위해 새로운 BezierAlign 레이어를 설계하였으며, 이는 이전 방법 대비 인식 정확도를 크게 향상시켰다. 셋째, 기존 방법들이 종종 복잡한 후처리와 민감한 하이퍼파라미터에 취약한 반면, ABCNet v2는 단일 후처리인 비최대 억제(non-maximum suppression, NMS)만을 사용하는 간단한 처리 파이프라인을 유지한다. 넷째, 텍스트 인식 성능은 특징 정렬에 크게 의존하므로, ABCNet v2는 간단하면서도 효과적인 좌표 컨볼루션(coordination convolution)을 도입하여 컨볼루션 필터의 위치 정보를 인코딩함으로써, 계산량의 거의 증가 없이 상당한 성능 향상을 달성하였다. 다양한 양국어(영어 및 중국어) 기준 데이터셋에서 수행된 종합적인 실험 결과, ABCNet v2는 매우 높은 효율성을 유지하면서도 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다.