Command Palette
Search for a command to run...
Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

초록
문서 이미지 파싱은 텍스트 단락, 그림, 수식, 표 등 복잡하게 얽힌 요소들이 존재함에 따라 도전적인 과제이다. 기존의 접근 방식은 전문가 모델을 전용으로 구성하거나 페이지 수준의 콘텐츠를 자동 회귀적으로 직접 생성하는 방식을 취하고 있으나, 뛰어난 성능을 보이더라도 통합 부담, 효율성 한계, 레이아웃 구조의 저하 문제를 겪고 있다. 이러한 한계를 극복하기 위해, 본 연구에서는 분석-다음-파싱(Analyze-then-Parse) 파라다임을 따르는 새로운 다중모달 문서 이미지 파싱 모델인 \textit{Dolphin}(\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g})을 제안한다. 첫 번째 단계에서 Dolphin은 독해 순서에 따라 레이아웃 요소의 시퀀스를 생성한다. 이러한 이질적인 요소들은 앵커 역할을 하며, 작업에 특화된 프롬프트와 결합되어 두 번째 단계에서 병렬적으로 콘텐츠를 파싱하기 위해 Dolphin에 다시 입력된다. Dolphin을 훈련하기 위해, 다양한 계층의 파싱 작업을 포괄하는 3,000만 개 이상의 샘플로 구성된 대규모 데이터셋을 구축하였다. 기존의 주요 벤치마크와 자체 구축한 평가 데이터셋을 통한 종합적인 평가 결과, Dolphin은 다양한 페이지 수준 및 요소 수준 설정에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, 경량 아키텍처와 병렬 파싱 메커니즘을 통해 뛰어난 효율성도 보장한다. 코드 및 사전 학습 모델은 다음 URL에서 공개적으로 제공된다.