HyperAI초신경

LaTeX OCR 수학 공식 인식 데이터 세트

LaTeX OCR 데이터 세트는 광학 문자 인식(OCR) 분야의 복잡한 수학 공식 인식 문제에 초점을 맞춘 데이터 세트입니다. LaTeX OCR 데이터 세트에는 여러 가지 구성이 포함되어 있으며, 각 구성에는 서로 다른 기능과 데이터 분할이 있습니다. 예를 들어, "전체" 구성에는 약 10만 개의 인쇄 샘플이 포함되어 있는 반면, "합성_손글씨" 구성에는 인쇄된 공식을 기반으로 한 손으로 쓴 글꼴을 사용하여 합성된 10만 개의 손으로 쓴 샘플이 포함되어 있습니다.

이 저장소에는 5개의 데이터 세트가 있습니다.

  1. small 테스트에 사용되는 110개의 샘플이 포함된 소규모 데이터 세트입니다.
  2. full 이는 약 10만 건의 인쇄본에 대한 완전한 데이터 세트입니다. 사실, 샘플 수는 100k보다 약간 적습니다. 그 이유는 LaTeX의 추상 구문 트리를 사용하여 렌더링할 수 없는 많은 LaTeX를 제거했기 때문입니다.
  3. synthetic_handwrite 손으로 쓴 10만 자 문자의 완전한 데이터 세트입니다. full 이 공식은 사람이 종이에 쓴 글씨로 볼 수 있는 손으로 쓴 글꼴을 사용하여 합성되었습니다. 샘플의 수는 실제로 10만 개보다 약간 적습니다. 이유는 위와 같습니다.
  4. human_handwrite 이는 전자 화면에 나타난 사람의 필체와 더 일치하는 소규모의 필체 데이터 세트입니다. 주로 ~에서 CROHME . 우리는 LaTeX의 추상 구문 트리를 사용하여 이를 확인했습니다.
  5. human_handwrite_print 에서 온 것입니다 human_handwrite 인쇄된 데이터 세트, 수식 부분 및 human_handwrite 마찬가지로, 그림은 LaTeX를 사용하여 수식에서 렌더링됩니다.

LaTeX OCR 데이터 세트는 다음을 포함한 여러 소스에서 제공됩니다. https://zenodo.org/record/56198#.V2p0KTXT6eA 그리고 https://www.isical.ac.in/~crohme/ 수집된 데이터뿐만 아니라, 스스로 구성한 데이터도 있습니다. OCR 모델을 훈련하고 평가하는 데 사용할 수 있으며, 복잡한 수학 기호와 공식을 처리할 때 특히 뛰어난 성능을 발휘합니다. 이는 학술 문서 디지털화, 온라인 교육, 과학 연구 지원 및 개인 학습 분야에서 널리 사용됩니다.

LaTeX_OCR.torrent
시딩 2다운로드 중 0완료됨 95총 다운로드 횟수 124
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB