11일 전

DocFormer: 문서 이해를 위한 엔드투엔드 트랜스포머

Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha
DocFormer: 문서 이해를 위한 엔드투엔드 트랜스포머
초록

우리는 시각 문서 이해(Visual Document Understanding, VDU) 작업을 위한 다중 모달 트랜스포머 기반 아키텍처인 DocFormer을 제안한다. VDU는 양식, 영수증 등 다양한 형식과 레이아웃을 가진 문서를 이해하는 데 목적이 있는 도전적인 문제이다. 또한 DocFormer은 다중 모달 상호작용을 유도하는 철저히 설계된 작업을 기반으로 비지도 방식으로 사전 훈련된다. DocFormer은 텍스트, 비전, 공간적 특징을 사용하며, 새로운 다중 모달 자체 주의(self-attention) 레이어를 통해 이들을 통합한다. 또한 모달 간에 학습된 공간 임베딩을 공유함으로써 텍스트 토큰과 시각적 토큰 간의 상관관계를 쉽게 학습할 수 있도록 한다. DocFormer은 각각 강력한 기준 모델을 갖춘 4개의 다른 데이터셋에서 평가되었으며, 모든 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였으며, 파라미터 수가 4배나 큰 모델을 초과하는 성능을 기록하기도 했다.

DocFormer: 문서 이해를 위한 엔드투엔드 트랜스포머 | 최신 연구 논문 | HyperAI초신경