20일 전

돌핀: 이질적 앵커 프롬프팅을 통한 문서 이미지 구문 분석

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

초록

문서 이미지 파싱은 텍스트 단락, 그림, 수식, 표 등 복잡하게 얽힌 요소들이 존재함에 따라 도전적인 과제이다. 기존의 접근 방식은 전문가 모델을 전용으로 구성하거나 페이지 수준의 콘텐츠를 자동 회귀적으로 직접 생성하는 방식을 취하고 있으나, 뛰어난 성능을 보이더라도 통합 부담, 효율성 한계, 레이아웃 구조의 저하 문제를 겪고 있다. 이러한 한계를 극복하기 위해, 본 연구에서는 분석-다음-파싱(Analyze-then-Parse) 파라다임을 따르는 새로운 다중모달 문서 이미지 파싱 모델인 \textit{Dolphin}(\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g})을 제안한다. 첫 번째 단계에서 Dolphin은 독해 순서에 따라 레이아웃 요소의 시퀀스를 생성한다. 이러한 이질적인 요소들은 앵커 역할을 하며, 작업에 특화된 프롬프트와 결합되어 두 번째 단계에서 병렬적으로 콘텐츠를 파싱하기 위해 Dolphin에 다시 입력된다. Dolphin을 훈련하기 위해, 다양한 계층의 파싱 작업을 포괄하는 3,000만 개 이상의 샘플로 구성된 대규모 데이터셋을 구축하였다. 기존의 주요 벤치마크와 자체 구축한 평가 데이터셋을 통한 종합적인 평가 결과, Dolphin은 다양한 페이지 수준 및 요소 수준 설정에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, 경량 아키텍처와 병렬 파싱 메커니즘을 통해 뛰어난 효율성도 보장한다. 코드 및 사전 학습 모델은 다음 URL에서 공개적으로 제공된다.

코드 저장소

bytedance/dolphin

공식

pytorch

GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

돌핀: 이질적 앵커 프롬프팅을 통한 문서 이미지 구문 분석

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

초록

코드 저장소

AI로 AI 구축

Hyper Newsletters