17일 전

DocFormerv2: 문서 이해를 위한 국소적 특징

Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou, R. Manmatha
DocFormerv2: 문서 이해를 위한 국소적 특징
초록

우리는 시각 문서 이해(Visual Document Understanding, VDU)를 위한 다중 모달 트랜스포머인 DocFormerv2를 제안한다. VDU 분야는 단순한 OCR 예측을 넘어서 문서의 의미를 이해하는 것을 목표로 하며, 예를 들어 양식에서 정보를 추출하거나 문서에 대한 질의응답(VQA), 기타 다양한 작업을 포함한다. VDU는 시각, 언어, 공간적 정보 등 여러 모달리티를 통합적으로 이해할 수 있어야 하는 점에서 도전적인 과제이다. 본 연구에서 제안하는 DocFormerv2는 인코더-디코더 구조의 트랜스포머로, 입력으로 시각적 특징, 언어적 특징, 공간적 특징을 사용한다. DocFormerv2는 비지도 학습 태스크를 비대칭적으로 적용하여 사전 훈련되며, 인코더에는 두 가지 새로운 문서 기반 태스크를, 디코더에는 하나의 순차적 생성(auto-regressive) 태스크를 사용한다. 이 비지도 학습 태스크는 여러 모달리티 간의 국소적 특징 정렬(local-feature alignment)을 유도하도록 철저히 설계되었다. DocFormerv2는 9개의 데이터셋에서 평가되었으며, 강력한 기준 모델들(예: TabFact +4.3%, InfoVQA +1.4%, FUNSD +1%)에 비해 최상의 성능을 보였다. 또한, 장면 텍스트를 포함한 세 가지 VQA 작업을 통해 일반화 능력을 입증하였으며, 이전과 크기가 유사한 모델들을 넘어서는 성능을 보였고, 일부 작업에서는 훨씬 더 큰 모델들(예: GIT2, PaLi, Flamingo)보다도 우수한 성능을 기록했다. 광범위한 아블레이션 실험을 통해, 사전 훈련 덕분에 DocFormerv2가 기존의 최고 수준의 VDU 모델들보다 다중 모달리티를 더 잘 이해함을 확인할 수 있었다.

DocFormerv2: 문서 이해를 위한 국소적 특징 | 최신 연구 논문 | HyperAI초신경