3달 전
GlobalDoc: 실세계 문서 이미지 검색 및 분류를 위한 다중모달 비전-언어 프레임워크
Souhail Bakkali, Sanket Biswas, Zuheng Ming, Mickaël Coustaty, Marçal Rusiñol, Oriol Ramos Terrades, Josep Lladós

초록
시각 문서 이해(VDU)는 강력한 다중 모달 언어 모델의 발전과 함께 급속히 진보하고 있다. 그러나 이러한 모델들은 일반적으로 중간 표현을 학습하기 위해 방대한 문서 사전 훈련 데이터를 필요로 하며, 실세계 온라인 산업 환경에서 성능이 크게 저하되는 문제가 있다. 주요 원인은 문서 페이지 내 국소적 위치 정보를 추출하기 위해 OCR 엔진에 과도하게 의존하는 데 있다. 이는 모델이 글로벌 정보를 효과적으로 포착하는 능력을 제한하고, 일반화 능력, 유연성, 그리고 견고성에 악영향을 미친다. 본 논문에서는 세 가지 새로운 전처리 목표 과제를 사용하여 자기 지도 방식으로 사전 훈련된, 크로스 모달 트랜스포머 기반의 아키텍처인 GlobalDoc을 제안한다. GlobalDoc는 언어와 시각적 표현을 통합함으로써 더 � богrich한 의미적 개념을 학습하게 되어, 보다 전이 가능한 모델을 생성한다. 정확한 평가를 위해 산업 환경을 더 현실적으로 시뮬레이션할 수 있도록, 소수 샘플 기반 문서 이미지 분류(Few-Shot Document Image Classification, DIC)와 콘텐츠 기반 문서 이미지 검색(Content-based Document Image Retrieval, DIR)이라는 두 가지 새로운 문서 수준의 하류 VDU 과제를 제안한다. 다양한 실험을 통해 GlobalDoc가 실용적 환경에서 효과적임을 입증하였다.