Command Palette

Search for a command to run...

2달 전

olmOCR: 시각 언어 모델을 활용한 PDF 내 트리리언 토큰의 잠재력 해방

{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

olmOCR: 시각 언어 모델을 활용한 PDF 내 트리리언 토큰의 잠재력 해방

초록

PDF 문서는 언어 모델 훈련을 위한 수조 개의 새로운 고품질 토큰을 제공할 잠재력을 지닌다. 그러나 이러한 문서는 형식과 시각적 레이아웃이 다양하여 언어 모델 활용을 위한 내용을 정확하고 충실하게 추출하는 데 어려움을 초래한다. 기존 오픈소스 도구들은 시각-언어 모델(VLM)에 비해 추출 품질이 낮은 편이나, 최고 수준의 VLM에 의존할 경우 비용이 막대해지며(예: GPT-4o 기준 100만 페이지당 6,240달러 이상), PDF 파일을 사적 API로 전송할 수 없는 경우는 사용이 불가능하다. 본 연구에서는 olmOCR를 제안한다. olmOCR는 구조화된 콘텐츠(섹션, 표, 목록, 수식 등)를 유지하면서도 자연스러운 독해 순서로 정리된 깔끔한 선형 텍스트로 PDF를 처리하는 오픈소스 툴킷이다. 본 툴킷은 olmOCR-mix-0225라는 데이터셋에 기반한 미세조정된 7B 규모의 시각-언어 모델(VLM)을 사용하며, 이 데이터셋은 10만 개 이상의 크롤링된 PDF에서 추출한 약 26만 페이지의 다양한 특성을 포함하고 있다. 이 데이터셋에는 그래픽, 수기 글씨, 저품질 스캔 등이 포함되어 있다. olmOCR는 대규모 배치 처리에 최적화되어 있으며, 다양한 하드웨어 환경에 유연하게 확장 가능하며, 100만 페이지의 PDF를 변환하는 데 단 176달러의 비용만 소요된다. 기존 시스템과의 비교를 돕기 위해, 수식, 표, 미세한 글꼴, 오래된 스캔 등 최고 수준의 도구와 VLM 역시 도전적인 콘텐츠 유형을 포괄하는 1,400개의 PDF로 구성된 olmOCR-Bench도 함께 소개한다. 실험 결과, olmOCR는 GPT-4o, Gemini Flash 2, Qwen-2.5-VL과 같은 최고 수준의 VLM들조차도 초월하는 성능을 보였다. 본 연구는 olmOCR의 모든 구성 요소를 공개한다. 구체적으로는 미세조정된 VLM 모델, 훈련 코드 및 데이터, vLLM과 SGLang 백엔드를 지원하는 효율적인 추론 파이프라인, 그리고 olmOCR-Bench 벤치마크를 포함한다.

코드 저장소

allenai/olmocr
공식
pytorch
GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
olmOCR: 시각 언어 모델을 활용한 PDF 내 트리리언 토큰의 잠재력 해방 | 연구 논문 | HyperAI초신경