2달 전
LayoutMask: 문서 이해를 위한 다중 모드 사전 학습에서 텍스트 레이아웃 상호작용 강화
Yi Tu; Ya Guo; Huan Chen; Jinyang Tang

초록
시각적으로 풍부한 문서 이해(Visually-rich Document Understanding, VrDU)는 최근 몇 년 동안 많은 연구 관심을 받고 있습니다. 대규모 문서 이미지에서 트랜스포머 기반 백본을 사용하여 사전 학습된 모델들은 이 분야에서 상당한 성능 향상을 가져왔습니다. 주요 과제는 서로 다른 모달리티(텍스트, 레이아웃, 이미지)를 통합된 모델에서 다양한 사전 학습 작업으로 융합하는 방법입니다. 본 논문은 텍스트-레이아웃 상호작용을 개선하는 데 초점을 맞추고 새로운 다중 모달리티 사전 학습 모델인 LayoutMask를 제안합니다. LayoutMask는 전역 1D 위치가 아닌 국소 1D 위치를 레이아웃 입력으로 사용하며, 두 가지 사전 학습 목표를 가지고 있습니다: (1) 마스킹 언어 모델링(Masked Language Modeling): 두 가지 새로운 마스킹 전략을 사용하여 마스킹된 토큰을 예측하고, (2) 마스킹 위치 모델링(Masked Position Modeling): 2D 위치의 마스킹을 예측하여 레이아웃 표현 학습을 개선합니다. LayoutMask는 통합된 모델에서 텍스트와 레이아웃 모달리티 간의 상호작용을 강화하고, 후속 작업에 대한 적응적이고 견고한 다중 모달리티 표현을 생성할 수 있습니다. 실험 결과, 제안된 방법이 양식 이해, 영수증 이해, 문서 이미지 분류 등 다양한 VrDU 문제에서 최신 기술(SOTA) 수준의 성과를 달성할 수 있음을 보여주었습니다.