CLIP4STR: 사전 훈련된 비전-언어 모델을 활용한 장면 텍스트 인식을 위한 간단한 베이스라인

사전 훈련된 시각-언어 모델(VLMs)은 다양한 후속 작업의 사실상 기초 모델로 자리 잡고 있다. 그러나 장면 텍스트 인식(STR) 기법들은 여전히 단일 모달리티, 즉 시각 모달리티에서 사전 훈련된 백본을 선호하고 있다. 이는 VLMs가 강력한 장면 텍스트 판독 능력을 지닐 수 있음에도 불구하고 그러한 잠재력을 충분히 활용하지 못하고 있음을 의미한다. 예를 들어, CLIP은 이미지 내 정규(수평) 및 비정규(회전, 곡선, 흐림, 가림 등) 텍스트를 견고하게 식별할 수 있다. 이러한 장점을 바탕으로 본 연구는 CLIP을 장면 텍스트 판독기로 변환하고, CLIP의 이미지 및 텍스트 인코더를 기반으로 한 간단하면서도 효과적인 STR 방법인 CLIP4STR를 제안한다. CLIP4STR는 시각 브랜치와 교차 모달 브랜치라는 두 가지 인코더-디코더 브랜치로 구성된다. 시각 브랜치는 시각적 특징을 기반으로 초기 예측을 수행하며, 교차 모달 브랜치는 시각적 특징과 텍스트 의미 간의 불일치를 해결함으로써 이 예측을 보정한다. 두 브랜치의 능력을 최대한 발휘하기 위해, 추론 과정에서 이중 예측-보정(decode-and-refine) 전략을 설계하였다. 모델 크기, 사전 훈련 데이터, 훈련 데이터 측면에서 CLIP4STR를 확장함으로써 13개의 STR 벤치마크에서 최신 기술(SOTA) 성능을 달성하였다. 또한, CLIP이 STR에 적응되는 과정을 보다 깊이 이해할 수 있도록 포괄적인 실험적 분석을 제공한다. 본 연구는 VLM을 활용한 미래 STR 연구를 위한 단순하면서도 강력한 기준선(baseline)을 제시한다.