11일 전
DocFormer: 문서 이해를 위한 엔드투엔드 트랜스포머
Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha

초록
우리는 시각 문서 이해(Visual Document Understanding, VDU) 작업을 위한 다중 모달 트랜스포머 기반 아키텍처인 DocFormer을 제안한다. VDU는 양식, 영수증 등 다양한 형식과 레이아웃을 가진 문서를 이해하는 데 목적이 있는 도전적인 문제이다. 또한 DocFormer은 다중 모달 상호작용을 유도하는 철저히 설계된 작업을 기반으로 비지도 방식으로 사전 훈련된다. DocFormer은 텍스트, 비전, 공간적 특징을 사용하며, 새로운 다중 모달 자체 주의(self-attention) 레이어를 통해 이들을 통합한다. 또한 모달 간에 학습된 공간 임베딩을 공유함으로써 텍스트 토큰과 시각적 토큰 간의 상관관계를 쉽게 학습할 수 있도록 한다. DocFormer은 각각 강력한 기준 모델을 갖춘 4개의 다른 데이터셋에서 평가되었으며, 모든 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였으며, 파라미터 수가 4배나 큰 모델을 초과하는 성능을 기록하기도 했다.