11일 전

MaskOCR: 마스크드 인코더-디코더 사전학습을 통한 텍스트 인식

Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
MaskOCR: 마스크드 인코더-디코더 사전학습을 통한 텍스트 인식
초록

텍스트 이미지는 시각적 정보와 언어적 정보를 모두 포함하고 있다. 그러나 기존의 텍스트 인식을 위한 사전 학습 기법은 주로 시각적 표현 학습 또는 언어 지식 학습 중 하나에 집중되어 있다. 본 논문에서는 전통적인 인코더-디코더 인식 프레임워크 내에서 시각과 언어의 사전 학습을 통합하는 새로운 접근법인 MaskOCR를 제안한다. 우리는 대량의 레이블이 없는 실제 텍스트 이미지를 이용하여 특징 인코더를 마스킹된 이미지 모델링 방식으로 사전 학습함으로써 강력한 시각적 표현을 학습할 수 있다. 추가적인 언어 모델을 도입하는 대신, 시퀀스 디코더를 직접 사전 학습한다. 구체적으로, 텍스트 데이터를 합성된 텍스트 이미지로 변환하여 시각과 언어의 데이터 모달리티를 통일하고, 제안한 마스킹된 이미지-언어 모델링 방식을 통해 시퀀스 디코더의 언어 모델링 능력을 강화한다. 특히, 시퀀스 디코더의 사전 학습 단계에서는 인코더를 고정(freeze)한다. 실험 결과, 제안한 방법이 중국어 및 영어 텍스트 이미지를 포함한 기준 데이터셋에서 우수한 성능을 달성함을 입증하였다.

MaskOCR: 마스크드 인코더-디코더 사전학습을 통한 텍스트 인식 | 최신 연구 논문 | HyperAI초신경