2달 전

LayoutXLM: 다국어 시각적으로 풍부한 문서 이해를 위한 다중 모달事前训练注意：在“事前训练”这部分，简体韩文通常会使用“사전 학습”来表示预训练。因此，更准确的翻译应该是： LayoutXLM: 다국어 시각적으로 풍부한 문서 이해를 위한 다중 모달 사전 학습

Xu, Yiheng ; Lv, Tengchao ; Cui, Lei ; Wang, Guoxin ; Lu, Yijuan ; Florencio, Dinei ; Zhang, Cha ; Wei, Furu

초록

텍스트, 레이아웃, 이미지를 활용한 다중모달 사전 학습은 최근 시각적으로 풍부한 문서 이해 작업에서 최고 수준의 성능을 달성하여, 다양한 모달 간의 공동 학습이 큰 잠재력을 가지고 있음을 입증하였습니다. 본 논문에서는 다국어 문서 이해를 위한 다중모달 사전 학습 모델인 LayoutXLM을 소개합니다. 이 모델은 시각적으로 풍부한 문서 이해에서 언어 장벽을 극복하는 것을 목표로 합니다. LayoutXLM의 정확한 평가를 위해, 우리는 7개 언어(중국어, 일본어, 스페인어, 프랑스어, 이탈리아어, 독일어, 포르투갈어)로 구성된 다국어 양식 이해 벤치마크 데이터셋인 XFUND도 제시합니다. 각 언어에 대해 키-값 쌍이 수작업으로 라벨링되었습니다. 실험 결과는 LayoutXLM 모델이 기존의 최고 수준의 크로스-링글 사전 학습 모델들보다 XFUND 데이터셋에서 크게 우수한 성능을 보였음을 나타냅니다. 사전 학습된 LayoutXLM 모델과 XFUND 데이터셋은 https://aka.ms/layoutxlm에서 공개적으로 이용 가능합니다.