HyperAIHyperAI

Command Palette

Search for a command to run...

LightOnOCR-mix-0126 텍스트 전사 데이터 세트

날짜

4달 전

조직

Paper URL

2601.14251

라이선스

Other

LightOnOCR-mix-0126은 LightOn에서 2026년에 공개한 대규모 OCR 텍스트 전사 데이터셋입니다. 관련 연구 논문은 다음과 같습니다.LightOnOCR: 최첨단 OCR을 위한 10억 데이터 용량의 다국어 지원 엔드투엔드 비전-언어 모델이 프로젝트는 OCR 및 문서 이해 모델에 대한 엔드투엔드 감독을 제공하여 자연스러운 순서로 정렬된 전체 페이지 분량의 전사 텍스트를 출력하는 것을 목표로 합니다. 이 데이터셋은 학습 세트와 검증 세트의 두 부분으로 구성됩니다. 각 샘플은 문서 페이지의 텍스트 전사 결과를 나타냅니다. 내용은 자연스러운 읽기 순서로 구성된 페이지 텍스트(출력 형식에는 Markdown, LaTeX 수학 공식, HTML 표 등이 포함됨)와 단락, 제목, 목록, 표 등 다양한 유형의 페이지 콘텐츠를 포함하는 해당 구조화된 마크업을 포함합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
LightOnOCR-mix-0126 텍스트 전사 데이터 세트 | 데이터 세트 | HyperAI초신경