
초록
컨텍스트 인식 STR 기법은 일반적으로 내부 자기회귀(AR) 언어 모델(LM)을 사용한다. AR 모델의 내재적 한계로 인해 외부 LM을 활용하는 이단계 방식이 제안되었다. 그러나 외부 LM이 입력 이미지에 조건부 독립적이라는 특성은 정확한 예측을 잘못 수정할 수 있어 심각한 비효율을 초래할 수 있다. 본 연구에서 제안하는 PARSeq는 순열 언어 모델링(Permutation Language Modeling)을 이용해 공유 가중치를 가진 내부 AR LM의 앙상블을 학습한다. 이는 문맥 무관(non-AR)과 문맥 인식(AR) 추론을 통합하고, 양방향 문맥을 활용한 반복적 개선을 가능하게 한다. 합성 학습 데이터를 사용함으로써 PARSeq는 STR 벤치마크(91.9% 정확도)와 더 도전적인 데이터셋에서 최신 기준(SOTA) 성능을 달성하였으며, 실제 데이터로 학습했을 때도 새로운 SOTA 성능(96.0% 정확도)을 수립하였다. 단순하고 통합된 구조 및 병렬 토큰 처리 방식으로 인해 정확도 대비 파라미터 수, FLOPS, 지연 시간 측면에서 최적의 성능을 발휘한다. 또한 주로 어텐션을 집중적으로 활용함으로써 실제 이미지에서 흔히 나타나는 임의의 방향성 텍스트에 대해 뛰어난 강건성을 보인다. 코드, 사전 학습된 가중치 및 데이터는 다음 주소에서 제공된다: https://github.com/baudm/parseq.