11일 전
문서 이해를 위한 통합 사전학습 프레임워크
Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Nikolaos Barmpalios, Rajiv Jain, Ani Nenkova, Tong Sun

초록
문서 인텔리전스는 문서에서 정보를 자동으로 추출하고 다양한 비즈니스 응용을 지원한다. 최근 대규모 레이블 없는 문서 데이터셋을 기반으로 한 자기지도 학습 방법들은, 자가지도 목표를 활용해 모델을 훈련함으로써 레이블링 작업량을 줄이는 데 있어 희망적인 방향을 제시하고 있다. 그러나 기존의 대부분의 문서 사전학습 방법은 여전히 언어 중심에 치우쳐 있다. 본 연구에서는 문서 이해를 위한 새로운 통합 사전학습 프레임워크인 UDoc을 제안한다. UDoc은 다양한 문서 이해 작업을 지원하도록 설계되었으며, 트랜스포머 아키텍처를 확장하여 다중 모달 임베딩을 입력으로 받을 수 있도록 하였다. 입력 요소는 입력 문서 이미지의 의미적 영역에서 추출한 단어와 시각적 특징으로 구성된다. UDoc의 중요한 특징은 문장 구조를 모델링하고 유사도를 학습하며 모달 간의 정렬을 유도하는 세 가지 자기지도 손실을 활용하여 일반적인 표현을 학습한다는 점이다. 광범위한 실험 분석을 통해 사전학습 과정이 더 나은 공동 표현을 학습하고, 하류 작업에서 성능 향상을 이끌어낸다는 것이 입증되었다.