
장면 텍스트 인식(Scene text recognition, STR)은 수년간 컴퓨터 비전 분야에서 활발히 연구되어온 주제이다. 이 도전적인 문제를 해결하기 위해 수많은 혁신적인 방법들이 제안되어 왔으며, 최근에는 STR 모델에 언어 지식을 통합하는 것이 주목받는 트렌드로 부상하고 있다. 본 연구에서는 최근 비전 트랜스포머(Vision Transformer, ViT)의 발전에서 영감을 받아, 개념적으로 간단하면서도 강력한 비전 기반 STR 모델을 설계하였다. 이 모델은 ViT 기반으로 구성되어 있으며, 순수 비전 기반 모델과 언어 증강 기법을 활용한 기존 최고 성능 모델들을 모두 능가한다. 언어 지식을 통합하기 위해, 우리는 추가로 다중 그레인(predictive) 예측 전략(Multi-Granularity Prediction, MGP)을 제안한다. 이 전략은 언어 모달리티의 정보를 암묵적으로 모델에 통합하는 방식으로, 기존의 문자 수준 표현 외에 자연어 처리(NLP)에서 널리 사용되는 하위단어 표현(BPE 및 WordPiece)을 출력 공간에 도입함으로써 언어 지식을 효과적으로 반영한다. 이 과정에서 별도의 독립된 언어 모델(Language Model, LM)을 사용하지 않는다. 최종적으로 제안된 알고리즘(MGP-STR)은 STR의 성능 한계를 더욱 높일 수 있게 되었으며, 표준 벤치마크에서 평균 인식 정확도 93.35%를 달성하였다. 코드는 https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR 에서 공개되어 있다.