2달 전

StrucTexTv2: 문서 이미지 사전 학습을 위한 마스크 시각-텍스트 예측

Yuechen Yu; Yulin Li; Chengquan Zhang; Xiaoqiang Zhang; Zengyuan Guo; Xiameng Qin; Kun Yao; Junyu Han; Errui Ding; Jingdong Wang
StrucTexTv2: 문서 이미지 사전 학습을 위한 마스크 시각-텍스트 예측
초록

본 논문에서는 마스킹된 시각-텍스트 예측을 수행하여 효과적인 문서 이미지 사전 학습 프레임워크인 StrucTexTv2를 제시합니다. 이 프레임워크는 텍스트 영역 수준의 이미지 마스킹을 기반으로 하는 두 가지 자기 지도 사전 학습 과제로 구성됩니다: 마스킹된 이미지 모델링과 마스킹된 언어 모델링입니다. 제안된 방법은 텍스트 단어의 바운딩 박스 좌표에 따라 일부 이미지 영역을 무작위로 마스킹합니다. 우리의 사전 학습 과제의 목표는 마스킹된 이미지 영역의 픽셀과 해당하는 마스킹된 토큰을 동시에 재구성하는 것입니다. 따라서 사전 학습된 인코더는 일반적으로 마스킹된 이미지 패치를 예측하는 마스キング된 이미지 모델링보다 더 많은 텍스트 의미론을 포착할 수 있습니다. 문서 이미지 이해를 위한 다중 모달 사전 학습 방법들과 비교하면, StrucTexTv2는 이미지만 입력을 처리하며 OCR 사전 처리 없이도 더 많은 응용 시나리오를 다룰 수 있는 잠재력을 가지고 있습니다. 주요 벤치마크에서 실시한 광범위한 실험들은 StrucTexTv2의 효과성을 입증합니다. 이 방법은 다양한 하류 작업에서 경쟁력 있는 혹은 새로운 최고 성능(SOTA)을 달성하였으며, 이러한 작업에는 이미지 분류, 레이아웃 분석, 표 구조 인식, 문서 OCR, 그리고 엔드투엔드 시나리오 아래에서의 정보 추출 등이 포함됩니다.

StrucTexTv2: 문서 이미지 사전 학습을 위한 마스크 시각-텍스트 예측 | 최신 연구 논문 | HyperAI초신경