11일 전

다중 격자 예측을 통한 장면 텍스트 인식

Peng Wang, Cheng Da, Cong Yao
다중 격자 예측을 통한 장면 텍스트 인식
초록

장면 텍스트 인식(Scene text recognition, STR)은 수년간 컴퓨터 비전 분야에서 활발히 연구되어온 주제이다. 이 도전적인 문제를 해결하기 위해 수많은 혁신적인 방법들이 제안되어 왔으며, 최근에는 STR 모델에 언어 지식을 통합하는 것이 주목받는 트렌드로 부상하고 있다. 본 연구에서는 최근 비전 트랜스포머(Vision Transformer, ViT)의 발전에서 영감을 받아, 개념적으로 간단하면서도 강력한 비전 기반 STR 모델을 설계하였다. 이 모델은 ViT 기반으로 구성되어 있으며, 순수 비전 기반 모델과 언어 증강 기법을 활용한 기존 최고 성능 모델들을 모두 능가한다. 언어 지식을 통합하기 위해, 우리는 추가로 다중 그레인(predictive) 예측 전략(Multi-Granularity Prediction, MGP)을 제안한다. 이 전략은 언어 모달리티의 정보를 암묵적으로 모델에 통합하는 방식으로, 기존의 문자 수준 표현 외에 자연어 처리(NLP)에서 널리 사용되는 하위단어 표현(BPE 및 WordPiece)을 출력 공간에 도입함으로써 언어 지식을 효과적으로 반영한다. 이 과정에서 별도의 독립된 언어 모델(Language Model, LM)을 사용하지 않는다. 최종적으로 제안된 알고리즘(MGP-STR)은 STR의 성능 한계를 더욱 높일 수 있게 되었으며, 표준 벤치마크에서 평균 인식 정확도 93.35%를 달성하였다. 코드는 https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR 에서 공개되어 있다.

다중 격자 예측을 통한 장면 텍스트 인식 | 최신 연구 논문 | HyperAI초신경