2달 전
XDoc: 통합된 사전 학습을 통한 크로스 포맷 문서 이해
Jingye Chen; Tengchao Lv; Lei Cui; Cha Zhang; Furu Wei

초록
최근 사전 학습(pre-training)의 급증은 문서 이해(document understanding) 분야에서 빠른 발전을 목격하였습니다. 사전 학습과 미세 조정(fine-tuning) 프레임워크는 평문/plain texts, 문서 텍스트/document texts, 웹 텍스트/web texts 등 다양한 형식의 텍스트를 처리하는 데 효과적으로 사용되었습니다. 그러나 기존의 사전 학습 모델들은 대부분 한 번에 특정 문서 형식 하나만을 대상으로 하여, 여러 문서 형식에서 지식을 통합하는 것이 어려웠습니다. 이를 해결하기 위해 우리는 XDoc라는 통합된 사전 학습 모델을 제안합니다. 이 모델은 단일 모델 내에서 다양한 문서 형식을 처리할 수 있습니다. 매개변수 효율성을 위해 단어 임베딩 층(word embedding layer) 및 트랜스포머 층(Transformer layers)과 같은 다른 형식 간의 백본 매개변수를 공유합니다. 동시에, 가벼운 매개변수를 갖는 적응층(adaptive layers)을 도입하여 다양한 형식 간의 차이를 강화합니다. 실험 결과는 XDoc가 전체 36.7%의 매개변수로 개별 사전 학습 모델들보다 유사하거나 심지어 더 나은 성능을 다양한 다운스트림 작업(downstream tasks)에서 보여주었으며, 이는 실제 배포(real-world deployment)에 비용 효율적입니다. 코드와 사전 학습 모델은 \url{https://aka.ms/xdoc}에서 공개될 예정입니다.