Command Palette
Search for a command to run...
olmOCR-mix-1025 문서 인식 데이터 세트
olmOCR-mix-1025는 Allen Institute for AI에서 2025년에 발표한 대규모 고품질 PDF 문서 OCR 데이터 세트입니다. 관련 논문의 제목은 "olmOCR: 비전 언어 모델을 사용하여 PDF에서 수조 개의 토큰 잠금 해제이 시스템은 광학 문자 인식(OCR) 모델, 문서 이해 모델, 멀티모달 대형 모델의 훈련, 미세 조정 및 평가를 지원하는 것을 목표로 합니다.
이 데이터셋은 약 270,250페이지의 PDF 문서를 포함하고 있으며, 이 중 267,962페이지는 훈련 세트이고 2,288페이지는 평가 세트입니다. 학술 논문, 보관 문서, 스캔된 서적, 역사 필사본 등 다양한 문서 유형을 다룹니다. 각 하위 세트는 주로 영어로 되어 있으며, 전체 비율은 91%와 99% 사이입니다. 또한 스페인어, 프랑스어, 독일어, 이탈리아어, 라틴어, 인도네시아어로 된 소수의 문서도 포함합니다.
데이터셋 분포
- 00_documents(일반 문서): 총 232,790페이지(교육 세션 231,668개/평가 세션 1,122개), 언어 분포는 다음과 같습니다: 영어 94.46%, 스페인어 0.58%, 프랑스어 0.46%, 인도네시아어 0.45%, 독일어 0.42%.
- 01_books(도서 및 문서): 총 17,474페이지(16,575개 교육/899개 평가), 언어 분포는 다음과 같습니다: 영어 91.28%, 프랑스어 0.54%, 라틴어 0.31%, 독일어 0.27%, 힌디어 0.12%.
- 02_loc_transcripts(의회 기록/연설 기록): 총 9,989페이지(훈련용 9,891페이지, 평가용 98페이지), 언어 분포는 다음과 같습니다: 영어 98.21%, 스페인어 0.59%, 프랑스어 0.46%, 독일어 0.45%, 이탈리아어 0.11%.
- 03_national_archives: 총 9,997페이지(9,828개 교육/169개 평가), 언어 분포는 다음과 같습니다: 영어 99.82%, 스페인어 0.12%, 프랑스어 0.02%, 스웨덴어 0.01%, 독일어 0.01%.
이전 버전인 olmOCR-mix-0225에 비해 olmOCR-mix-1025는 주석 품질과 문서 커버리지를 더욱 향상시켰습니다. 이 버전은 GPT-4.1과 개선된 프롬프트 전략을 사용하여 OCR을 생성하여 텍스트 읽기 순서를 원본 레이아웃과 더욱 일관되게 유지하고 디지털 기반 콘텐츠 구조를 유지합니다. 한편, 데이터세트는 수학 공식을 위해 표준화되었고, 표는 HTML로 표현되었으며, 기본 이미지 대체 텍스트가 추가되었습니다. 또한, 책, 아카이브, 수기 문서 샘플이 추가되어 문서 기반 시나리오에서 강력한 모델 학습에 더욱 적합합니다.