Command Palette
Search for a command to run...
LightOnOCR-mix-0126 텍스트 전사 데이터 세트
LightOnOCR-mix-0126은 LightOn에서 2026년에 공개한 대규모 OCR 텍스트 전사 데이터셋입니다. 관련 연구 논문은 다음과 같습니다.LightOnOCR: 최첨단 OCR을 위한 10억 데이터 용량의 다국어 지원 엔드투엔드 비전-언어 모델이 프로젝트는 OCR 및 문서 이해 모델에 대한 엔드투엔드 감독을 제공하여 자연스러운 순서로 정렬된 전체 페이지 분량의 전사 텍스트를 출력하는 것을 목표로 합니다. 이 데이터셋은 학습 세트와 검증 세트의 두 부분으로 구성됩니다. 각 샘플은 문서 페이지의 텍스트 전사 결과를 나타냅니다. 내용은 자연스러운 읽기 순서로 구성된 페이지 텍스트(출력 형식에는 Markdown, LaTeX 수학 공식, HTML 표 등이 포함됨)와 단락, 제목, 목록, 표 등 다양한 유형의 페이지 콘텐츠를 포함하는 해당 구조화된 마크업을 포함합니다.