2달 전
시각, 텍스트, 및 레이아웃을 통합하여 보편적인 문서 처리 실현
Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

초록
우리는 Universal Document Processing (UDOP)을 제안합니다. 이는 텍스트, 이미지, 레이아웃 모달리티를 통합하고 문서 이해와 생성 등 다양한 작업 형식을 포함하는 기초 문서 AI 모델입니다. UDOP은 텍스트 내용과 문서 이미지 간의 공간적 상관관계를 활용하여 하나의 균일한 표현으로 이미지, 훈련, 레이아웃 모달리티를 모델링합니다. 새로운 Vision-Text-Layout Transformer를 통해 UDOP은 사전 학습과 다중 도메인 다운스트림 작업을 프롬프트 기반 시퀀스 생성 방식으로 통합합니다. UDOP은 혁신적인 자기 감독 목표를 사용하여 대규모 비라벨 문서 코퍼스에서 사전 학습되며, 다양한 라벨 데이터에서도 학습됩니다. 또한 UDOP은 마스크된 이미지 재구성을 통해 텍스트와 레이아웃 모달리티로부터 문서 이미지를 생성하는 방법도 학습합니다. 우리 지식에 따르면, 이는 문서 AI 분야에서 한 모델이 동시에 고품질의 신경망 기반 문서 편집과 콘텐츠 맞춤화를 달성한 첫 번째 사례입니다. 우리의 방법은 금융 보고서, 학술 논문, 웹사이트 등 다양한 데이터 도메인에서 8개의 문서 AI 작업에서 최고 성능을 기록하며, Document Understanding Benchmark 리더보드에서 1위를 차지했습니다.