2달 전
ERNIE-Layout: 시각적으로 풍부한 문서 이해를 위한 레이아웃 지식 강화 사전 학습
Qiming Peng; Yinxu Pan; Wenjin Wang; Bin Luo; Zhenyu Zhang; Zhengjie Huang; Teng Hu; Weichong Yin; Yongfeng Chen; Yin Zhang; Shikun Feng; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang

초록
최근 몇 년간 시각적으로 풍부한 문서 이해 분야에서 사전 학습 기술의 발전과 성공이 두드러졌습니다. 그러나 대부분의 기존 방법들은 레이아웃 중심 지식의 체계적인 발굴과 활용을 부족하여, 최적의 성능을 내지 못하는 경우가 많았습니다. 본 논문에서는 전체 워크플로에서 레이아웃 지식 강화를 적용한 새로운 문서 사전 학습 솔루션인 ERNIE-Layout을 제안합니다. 이는 텍스트, 레이아웃, 이미지의 특성을 결합하여 더 나은 표현을 학습할 수 있도록 설계되었습니다. 구체적으로, 먼저 직렬화 단계에서 입력 시퀀스를 재배열하고, 그 다음으로 문서의 적절한 읽기 순서를 학습하기 위한 상관 사전 학습 작업인 읽기 순서 예측을 제시합니다. 모델의 레이아웃 인식 능력을 개선하기 위해 다중 모달 트랜스포머에 공간 인식 해상도 주의 메커니즘을 통합하고, 사전 학습 단계에 치환된 영역 예측 작업을 도입하였습니다. 실험 결과, ERNIE-Layout은 다양한 하위 작업에서 우수한 성능을 보였으며, 주요 정보 추출, 문서 이미지 분류, 문서 질문 답변 데이터셋에서 새로운 최고 수준(SOTA) 성능을 달성하였습니다. 코드와 모델은 http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout 에 공개되어 있습니다.