SPTS v2: 싱글포인트 장면 텍스트 스폿팅

엔드투엔드 시나리오 텍스트 스팟팅은 텍스트 탐지와 인식 간 내재된 상호보완성 덕분에 상당한 진전을 이루었다. 기존의 방법들은 일반적으로 수평 사각형, 회전 사각형, 사각형, 다각형과 같은 수동 레이블을 사전 조건으로 삼아 왔으나, 이러한 레이블링 방식은 단일 점(single-point) 레이블링에 비해 훨씬 더 높은 비용이 소요된다. 본 연구에서 제안하는 새로운 프레임워크인 SPTS v2는 단일 점 레이블링만으로도 고성능의 텍스트 스팟팅 모델을 훈련할 수 있도록 한다. SPTS v2는 순차적으로 동일한 예측 시퀀스 내 모든 텍스트 인스턴스의 중심점을 예측함으로써, 자동 회귀형 Transformer의 장점을 유지하면서, 병렬 인식 디코더(Parallel Recognition Decoder, PRD)를 활용해 텍스트 인식을 병렬로 수행함으로써 시퀀스 길이에 대한 요구를 크게 줄였다. 두 디코더는 동일한 파라미터를 공유하며, 간단하지만 효과적인 정보 전달 프로세스를 통해 역전파 및 정보 교환을 실시간으로 수행한다. 다양한 기존 벤치마크 데이터셋에서 수행된 종합적 실험 결과, SPTS v2는 파라미터 수를 줄이면서도 기존 최고 성능의 단일 점 기반 텍스트 스팟터보다 뛰어난 성능을 달성하였으며, 추론 속도는 최대 19배 빠르다. SPTS v2 프레임워크 내에서의 실험 결과를 바탕으로, 기존의 다른 표현 방식에 비해 시나리오 텍스트 스팟팅에서 단일 점 표현 방식이 더 유리할 가능성이 제시된다. 이러한 시도는 기존의 패러다임을 넘어서는 시나리오 텍스트 스팟팅 응용 분야에 중요한 기회를 제공한다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/Yuliang-Liu/SPTSv2.