2달 전
DiT: 문서 이미지 트랜스포머를 위한 자기 감독 사전 학습
Junlong Li; Yiheng Xu; Tengchao Lv; Lei Cui; Cha Zhang; Furu Wei

초록
최근 Image Transformer는 감독 학습(ViT, DeiT 등) 또는 자기 감독 학습(BEiT, MAE 등) 사전 훈련 기술을 사용하여 자연 이미지 이해에서 상당한 진전을 이룩하였습니다. 본 논문에서는 \textbf{DiT}(\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer) 모델을 제안합니다. 이 모델은 대규모 비라벨 텍스트 이미지를 사용하여 자기 감독 학습으로 사전 훈련된 것으로, 인공 라벨링된 문서 이미지가 부족하기 때문에 감독 학습의 대응 모델이 존재하지 않는 문서 AI 작업에 필수적입니다. 우리는 다양한 시각 기반 문서 AI 작업에서 DiT를 백본 네트워크로 활용하였습니다. 이러한 작업에는 문서 이미지 분류, 문서 레이아웃 분석, 표 검출 및 OCR용 텍스트 검출이 포함됩니다. 실험 결과, 자기 감독 학습으로 사전 훈련된 DiT 모델이 이러한 다운스트림 작업에서 새로운 최고 수준의 성능을 달성하였음을 보여주었습니다. 예를 들어, 문서 이미지 분류(91.11 $\rightarrow$ 92.69), 문서 레이아웃 분석(91.0 $\rightarrow$ 94.9), 표 검출(94.23 $\rightarrow$ 96.55) 및 OCR용 텍스트 검출(93.07 $\rightarrow$ 94.29) 등의 성능 개선이 이루어졌습니다. 코드와 사전 훈련된 모델은 공개적으로 이용 가능하며, \url{https://aka.ms/msdit}에서 확인할 수 있습니다.