HyperAI초신경

olmOCR-mix-0225 대규모 PDF 문서 데이터 세트

날짜

2달 전

크기

52.16 GB

기관

앨런 인공지능 연구소

발행 주소

github.com

라이선스

CC BY 4.0

olmOCR-mix-0225는 광학 문자 인식(OCR) 모델을 훈련하고 최적화하도록 설계된 대규모 고품질 PDF 문서 데이터 세트입니다. 이 데이터 세트는 2025년 Allen Institute for AI에서 공개되었으며 관련 논문 결과는 "olmOCR: 비전 언어 모델을 사용하여 PDF에서 수조 개의 토큰 잠금 해제".

데이터 세트 특성

이 데이터 세트에는 학술 논문, 법률 문서, 매뉴얼 등 다양한 유형을 망라하는 약 25만 페이지의 PDF 콘텐츠가 포함되어 있습니다. 이 데이터 세트는 텍스트 콘텐츠를 포함할 뿐만 아니라, 각 페이지에서 중요한 요소(예: 텍스트 블록 및 이미지)의 좌표 정보도 추출합니다. 이 정보는 모델 프롬프트에 동적으로 주입되어 모델의 환각 현상을 크게 줄여줍니다. 이 데이터 세트는 자체 OCR 문서 처리 파이프라인을 훈련, 미세 조정 또는 평가하는 데 사용할 수 있습니다.

또한, 데이터 세트에는 GPT-4o를 사용하여 주석을 달아 주석의 높은 품질과 일관성을 보장합니다. 데이터는 공공 웹사이트에서 크롤링한 PDF 문서와 인터넷 아카이브의 서적을 포함한 다양한 소스에서 나옵니다. 이 데이터 세트는 텍스트 콘텐츠를 포함할 뿐만 아니라, 각 페이지에서 중요한 요소(예: 텍스트 블록 및 이미지)의 좌표 정보도 추출합니다. 이 정보는 모델 프롬프트에 동적으로 주입되어 모델의 환각 현상을 크게 줄여줍니다.

olmOCR-mix-0225.torrent
시딩 1다운로드 중 2완료됨 56총 다운로드 횟수 81
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB