11일 전

장면 텍스트 인식을 위한 컨텍스트 인지 병렬 디코더

Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Chenxia Li, Yuning Du, Yu-Gang Jiang
장면 텍스트 인식을 위한 컨텍스트 인지 병렬 디코더
초록

장면 텍스트 인식(STR) 기법은 높은 정확도와 빠른 추론 속도를 동시에 달성하는 데 어려움을 겪어왔다. 자동회귀(AR) 기반 모델은 문자 단위로 인식을 수행하여 정확도 측면에서 우수성을 보이지만, 추론 속도가 느리다는 단점이 있다. 반면, 병렬 디코딩(PD) 기반 모델은 단일 디코딩 단계에서 모든 문자를 동시에 추론함으로써 빠른 추론 속도를 제공하지만, 일반적으로 정확도가 낮은 편이다. 본 연구에서는 STR에서 AR 디코딩의 실증적 분석을 수행하고, AR 디코더가 언어적 맥락을 모델링할 뿐만 아니라 시각적 맥락 인식을 안내하는 역할도 수행함을 발견하였다. 이를 바탕으로, 단일 PD 단계에서 문자 시퀀스를 예측하는 '맥락 인식 병렬 디코더(Context Perception Parallel Decoder, CPPD)'를 제안한다. CPPD는 각 문자의 등장 횟수를 추론하는 문자 수 카운팅 모듈과, 콘텐츠 없는 읽기 순서 및 플레이스홀더를 추론하는 문자 순서 지정 모듈을 설계하였다. 동시에 문자 예측 작업은 플레이스홀더에 문자를 할당하는 역할을 수행하며, 이들 요소들이 함께 종합적인 인식 맥락을 구축한다. 본 연구는 다양한 크기의 CPPD 모델을 구축하였고, 제안된 모듈을 기존 STR 디코더에 통합하여 적용하였다. 영어 및 중국어 기준 데이터셋에서의 실험 결과, CPPD 모델은 AR 기반 모델 대비 약 8배 빠른 속도로 매우 경쟁력 있는 정확도를 달성함을 확인하였다. 또한, 기존 모델에 모듈을 통합한 경우에도 정확도가 크게 향상되는 효과를 보였다. 코드는 \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{이 하이퍼링크 URL}에서 확인할 수 있다.

장면 텍스트 인식을 위한 컨텍스트 인지 병렬 디코더 | 최신 연구 논문 | HyperAI초신경