Command Palette

Search for a command to run...

한 달 전

MinerU2.5: 고해상도 문서 분석을 위한 효율적인 분리형 시각-언어 모델

MinerU2.5: 고해상도 문서 분석을 위한 효율적인 분리형 시각-언어 모델

초록

우리는 상태 최고의 인식 정확도를 달성하면서도 뛰어난 계산 효율성을 유지하는 12억 파라미터 규모의 문서 해석 비전-언어 모델인 MinerU2.5를 소개한다. 본 연구에서는 전반적인 레이아웃 분석과 국소적 콘텐츠 인식을 분리하는 계층적이고 세분화된 두 단계 해석 전략을 채택하였다. 첫 번째 단계에서는 고해상도 입력을 처리하는 데 발생하는 계산 부담을 피하기 위해 다운샘플링된 이미지에서 효율적인 레이아웃 분석을 수행하여 구조적 요소를 식별한다. 두 번째 단계에서는 전반적인 레이아웃 정보를 기반으로 원본 이미지에서 추출한 원본 해상도의 영역(크롭)에 대해 타깃된 콘텐츠 인식을 수행함으로써, 밀집된 텍스트, 복잡한 수식 및 표 등에서 세부 정보를 유지한다. 이러한 전략을 지원하기 위해 사전 훈련 및 미세조정을 위한 다양한 대규모 훈련 코퍼스를 생성할 수 있는 종합적인 데이터 엔진을 개발하였다. 최종적으로 MinerU2.5는 여러 벤치마크에서 최고 성능을 보이며, 일반 목적 모델과 전문 도메인 모델을 모두 상회하는 인식 작업 전반에 걸쳐 뛰어난 문서 해석 능력을 입증하였다. 동시에 상당히 낮은 계산 부담을 유지함으로써 실용적인 적용 가능성을 확보하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MinerU2.5: 고해상도 문서 분석을 위한 효율적인 분리형 시각-언어 모델 | 연구 논문 | HyperAI초신경