Command Palette
Search for a command to run...
{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

초록
PDF 문서는 언어 모델 훈련을 위한 수조 개의 새로운 고품질 토큰을 제공할 잠재력을 지닌다. 그러나 이러한 문서는 형식과 시각적 레이아웃이 다양하여 언어 모델 활용을 위한 내용을 정확하고 충실하게 추출하는 데 어려움을 초래한다. 기존 오픈소스 도구들은 시각-언어 모델(VLM)에 비해 추출 품질이 낮은 편이나, 최고 수준의 VLM에 의존할 경우 비용이 막대해지며(예: GPT-4o 기준 100만 페이지당 6,240달러 이상), PDF 파일을 사적 API로 전송할 수 없는 경우는 사용이 불가능하다. 본 연구에서는 olmOCR를 제안한다. olmOCR는 구조화된 콘텐츠(섹션, 표, 목록, 수식 등)를 유지하면서도 자연스러운 독해 순서로 정리된 깔끔한 선형 텍스트로 PDF를 처리하는 오픈소스 툴킷이다. 본 툴킷은 olmOCR-mix-0225라는 데이터셋에 기반한 미세조정된 7B 규모의 시각-언어 모델(VLM)을 사용하며, 이 데이터셋은 10만 개 이상의 크롤링된 PDF에서 추출한 약 26만 페이지의 다양한 특성을 포함하고 있다. 이 데이터셋에는 그래픽, 수기 글씨, 저품질 스캔 등이 포함되어 있다. olmOCR는 대규모 배치 처리에 최적화되어 있으며, 다양한 하드웨어 환경에 유연하게 확장 가능하며, 100만 페이지의 PDF를 변환하는 데 단 176달러의 비용만 소요된다. 기존 시스템과의 비교를 돕기 위해, 수식, 표, 미세한 글꼴, 오래된 스캔 등 최고 수준의 도구와 VLM 역시 도전적인 콘텐츠 유형을 포괄하는 1,400개의 PDF로 구성된 olmOCR-Bench도 함께 소개한다. 실험 결과, olmOCR는 GPT-4o, Gemini Flash 2, Qwen-2.5-VL과 같은 최고 수준의 VLM들조차도 초월하는 성능을 보였다. 본 연구는 olmOCR의 모든 구성 요소를 공개한다. 구체적으로는 미세조정된 VLM 모델, 훈련 코드 및 데이터, vLLM과 SGLang 백엔드를 지원하는 효율적인 추론 파이프라인, 그리고 olmOCR-Bench 벤치마크를 포함한다.