
초록
이 논문에서는 외부 환경에서의 텍스트 탐지 및 인식을 위한 Transformer 기반의 일반적인 엔드투엔드 텍스트 스포팅 프레임워크인 TExt Spotting TRansformers(TESTR)를 제안한다. TESTR은 단일 인코더와 이중 디코더 아키텍처를 기반으로 하여 텍스트 박스의 제어점 회귀와 문자 인식을 동시에 수행한다. 기존의 대부분의 연구와 달리, 본 방법은 ROI(Region of Interest) 연산과 휴리스틱 기반의 후처리 절차를 필요로 하지 않으며, 전통적인 경계 박스 표현 방식의 적응이 특별히 요구되는 곡선형 텍스트 박스 처리에 특히 효과적이다. 우리는 베지어 곡선 및 다각형(annotation) 형태의 텍스트 인스턴스에 적합한 제어점의 표준 표현 방식을 제안한다. 또한, 경계 박스를 기반으로 한 다각형 탐지(box-to-polygon) 프로세스를 설계하였다. 곡선형 및 임의의 형태를 가진 데이터셋에 대한 실험 결과를 통해 제안된 TESTR 알고리즘이 최첨단 성능을 보임을 입증하였다.