SVTR: 단일 시각 모델을 이용한 장면 텍스트 인식

장면 텍스트 인식 모델 중 주류를 이끄는 모델들은 일반적으로 특징 추출을 위한 시각적 모델과 텍스트 전사(Transcription)를 위한 시퀀스 모델이라는 두 가지 핵심 구성 요소를 포함한다. 이러한 하이브리드 아키텍처는 정확도가 높지만 복잡성과 효율성 측면에서 한계가 있다. 본 연구에서는 패치 단위 이미지 토큰화 프레임워크 내에서 단일 시각적 모델을 활용한 장면 텍스트 인식 기법을 제안한다. 이 방법은 시퀀스 모델링을 완전히 제거함으로써 기존의 복잡한 구조를 간소화한다. 제안된 방법을 SVTR(Single Visual model for Scene Text Recognition)라 명명한다. SVTR는 먼저 장면 텍스트 이미지를 문자 단위로 분할한 작은 패치(문자 구성 요소)로 분해한다. 이후 구성 요소 수준에서 혼합(mixing), 병합(merging), 또는 결합(combining)을 반복적으로 수행하는 계층적 단계를 거친다. 글로벌 혼합 블록과 로컬 혼합 블록을 도입하여 문자 간 및 문자 내의 패턴을 효과적으로 인지함으로써, 다중 해상도의 문자 구성 요소 인식을 가능하게 한다. 이에 따라 문자는 단순한 선형 예측을 통해 인식된다. 영어 및 중국어 장면 텍스트 인식 작업에 대한 실험 결과를 통해 SVTR의 효과성을 입증하였다. SVTR-L(Large)은 영어에서는 높은 경쟁력을 보이며, 중국어에서는 기존 방법 대비 크게 우수한 정확도를 달성하면서도 더 빠른 속도로 동작한다. 또한 SVTR-T(Tiny)는 매우 작지만 효과적인 모델로, 추론 시 뛰어난 속도를 보여준다. 코드는 공개적으로 제공되며, https://github.com/PaddlePaddle/PaddleOCR 에서 확인할 수 있다.