LayoutLMv2: 시각적으로 풍부한 문서 이해를 위한 다중 모달事前训练 注:在最后一部分“事前训练”中,“事前”是中文词汇,意为“pre-”,而“训练”是“training”。根据韩语习惯,这部分可以翻译为“사전 학습”。因此,最终翻译如下: LayoutLMv2: 시각적으로 풍부한 문서 이해를 위한 다중 모달 사전 학습

텍스트와 레이아웃의 사전 학습은 효과적인 모델 구조와 대규모 비라벨 스캔/디지털 문서의 이점을 통해 다양한 시각적으로 풍부한 문서 이해 작업에서 효과성을 입증하였습니다. 우리는 텍스트, 레이아웃, 이미지 간의 상호작용을 단일 다중 모달 프레임워크로 모델링하기 위한 새로운 사전 학습 작업을 포함하는 LayoutLMv2 아키텍처를 제안합니다. 구체적으로, 두 개의 스트림으로 구성된 다중 모달 트랜스포머 인코더를 사용하여 LayoutLMv2는 기존의 마스크 시각-언어 모델링 작업뿐만 아니라 새로운 텍스트-이미지 정렬 및 텍스트-이미지 일치 작업도 수행합니다. 이러한 작업들은 사전 학습 단계에서 더 나은 cross-modality(다중 모달) 상호작용을 포착할 수 있도록 합니다. 또한, 트랜스포머 아키텍처에 공간 인식 자기 주의 메커니즘을 통합하여 모델이 서로 다른 텍스트 블록 간의 상대적 위치 관계를 완전히 이해할 수 있도록 하였습니다. 실험 결과, LayoutLMv2는 LayoutLM보다 크게 우수하며 FUNSD (0.7895 → 0.8420), CORD (0.9493 → 0.9601), SROIE (0.9524 → 0.9781), Kleister-NDA (0.8340 → 0.8520), RVL-CDIP (0.9443 → 0.9564), DocVQA (0.7295 → 0.8672) 등 다양한 후속 시각적으로 풍부한 문서 이해 작업에서 새로운 최고 성능을 달성하였습니다. 우리의 모델과 코드는 \url{https://aka.ms/layoutlmv2}에서 공개적으로 이용 가능합니다.