2달 전
LayoutLMv3: 통합된 텍스트와 이미지 마스킹을 이용한 문서 AI 사전 학습
Huang, Yupan ; Lv, Tengchao ; Cui, Lei ; Lu, Yutong ; Wei, Furu

초록
자기 감독 사전 학습 기술은 문서 AI 분야에서 뛰어난 진전을 이루었습니다. 대부분의 다중 모드 사전 학습 모델은 마스킹 언어 모델링 목표를 사용하여 텍스트 모드에서 양방향 표현을 학습하지만, 이미지 모드에 대한 사전 학습 목표는 서로 다릅니다. 이러한 차이는 다중 모드 표현 학습에 어려움을 더합니다. 본 논문에서는 \textbf{LayoutLMv3}를 제안하여, 통합된 텍스트와 이미지 마스킹을 통해 문서 AI를 위한 다중 모드 Transformer를 사전 학습합니다. 또한, LayoutLMv3는 단어-패치 정렬 목표로 사전 학습되어, 텍스트 단어의 대응하는 이미지 패치가 마스킹되었는지를 예측하여 교차 모드 정렬을 학습합니다. 간단한 통합 아키텍처와 학습 목표는 LayoutLMv3를 텍스트 중심과 이미지 중심 문서 AI 작업 모두에 적용할 수 있는 일반적인 사전 학습 모델로 만듭니다. 실험 결과는 LayoutLMv3가 폼 이해, 영수증 이해, 문서 시각적 질문 응답 등 텍스트 중심 작업뿐만 아니라 문서 이미지 분류 및 문서 레이아웃 분석과 같은 이미지 중심 작업에서도 최고 수준의 성능을 달성함을 보여줍니다. 코드와 모델은 \url{https://aka.ms/layoutlmv3}에서 공개적으로 이용 가능합니다.