Command Palette

Search for a command to run...

LaTeX OCR 수학 공식 인식 데이터 세트

날짜

일 년 전

크기

905.81 MB

발행 주소

github.com

LaTeX OCR 데이터 세트는 광학 문자 인식(OCR) 분야의 복잡한 수학 공식 인식 문제에 초점을 맞춘 데이터 세트입니다. LaTeX OCR 데이터 세트에는 여러 가지 구성이 포함되어 있으며, 각 구성에는 서로 다른 기능과 데이터 분할이 있습니다. 예를 들어, "전체" 구성에는 약 10만 개의 인쇄 샘플이 포함되어 있는 반면, "합성_손글씨" 구성에는 인쇄된 공식을 기반으로 한 손으로 쓴 글꼴을 사용하여 합성된 10만 개의 손으로 쓴 샘플이 포함되어 있습니다.

이 저장소에는 5개의 데이터 세트가 있습니다.

  1. small 테스트에 사용되는 110개의 샘플이 포함된 소규모 데이터 세트입니다.
  2. full 이는 약 10만 건의 인쇄본에 대한 완전한 데이터 세트입니다. 사실, 샘플 수는 100k보다 약간 적습니다. 그 이유는 LaTeX의 추상 구문 트리를 사용하여 렌더링할 수 없는 많은 LaTeX를 제거했기 때문입니다.
  3. synthetic_handwrite 손으로 쓴 10만 자 문자의 완전한 데이터 세트입니다. full 이 공식은 사람이 종이에 쓴 글씨로 볼 수 있는 손으로 쓴 글꼴을 사용하여 합성되었습니다. 샘플의 수는 실제로 10만 개보다 약간 적습니다. 이유는 위와 같습니다.
  4. human_handwrite 이는 전자 화면에 나타난 사람의 필체와 더 일치하는 소규모의 필체 데이터 세트입니다. 주로 ~에서 CROHME . 우리는 LaTeX의 추상 구문 트리를 사용하여 이를 확인했습니다.
  5. human_handwrite_print 에서 온 것입니다 human_handwrite 인쇄된 데이터 세트, 수식 부분 및 human_handwrite 마찬가지로, 그림은 LaTeX를 사용하여 수식에서 렌더링됩니다.

LaTeX OCR 데이터 세트는 다음을 포함한 여러 소스에서 제공됩니다. https://zenodo.org/record/56198#.V2p0KTXT6eA 그리고 https://www.isical.ac.in/~crohme/ 수집된 데이터뿐만 아니라, 스스로 구성한 데이터도 있습니다. OCR 모델을 훈련하고 평가하는 데 사용할 수 있으며, 복잡한 수학 기호와 공식을 처리할 때 특히 뛰어난 성능을 발휘합니다. 이는 학술 문서 디지털화, 온라인 교육, 과학 연구 지원 및 개인 학습 분야에서 널리 사용됩니다.

LaTeX_OCR.torrent
시딩 1다운로드 중 0완료됨 208총 다운로드 횟수 316
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp