2달 전
LayoutLM: 문서 이미지 이해를 위한 텍스트와 레이아웃의 사전 학습
Yiheng Xu; Minghao Li; Lei Cui; Shaohan Huang; Furu Wei; Ming Zhou

초록
최근 몇 년 동안 사전 학습(pre-training) 기술은 다양한 자연어 처리(NLP) 작업에서 성공적으로 검증되었습니다. 그러나 NLP 응용 프로그램을 위한 사전 학습 모델의 광범위한 사용에도 불구하고, 이러한 모델들은 거의 전적으로 텍스트 수준의 조작에 초점을 맞추고 있으며, 문서 이미지 이해에 중요한 레이아웃과 스타일 정보를 간과하고 있습니다. 본 논문에서는 스캔된 문서 이미지 내에서 텍스트와 레이아웃 정보 간의 상호 작용을 공동으로 모델링하는 \textbf{LayoutLM}을 제안합니다. 이는 스캔된 문서에서 정보 추출 등 많은 실제 문서 이미지 이해 작업에 유익합니다. 또한, 우리는 이미지 특징을 활용하여 LayoutLM에 단어들의 시각적 정보를 통합하였습니다. 최선의 지식으로는, 이 연구가 단일 프레임워크에서 텍스트와 레이아웃을 공동으로 학습하는 첫 번째 시도입니다. 이 모델은 폼 이해(70.72에서 79.27로), 영수증 이해(94.02에서 95.24로), 문서 이미지 분류(93.07에서 94.42로) 등의 여러 하위 작업에서 새로운 최고 수준의 결과를 달성하였습니다. LayoutLM의 코드와 사전 학습된 모델은 공개적으로 \url{https://aka.ms/layoutlm}에서 제공됩니다.