LaTeX OCR 데이터 세트는 광학 문자 인식(OCR) 분야의 복잡한 수학 공식 인식 문제에 초점을 맞춘 데이터 세트입니다. LaTeX OCR 데이터 세트에는 여러 가지 구성이 포함되어 있으며, 각 구성에는 서로 다른 기능과 데이터 분할이 있습니다. 예를 들어, "전체" 구성에는 약 10만 개의 인쇄 샘플이 포함되어 있는 반면, "합성_손글씨" 구성에는 인쇄된 공식을 기반으로 한 손으로 쓴 글꼴을 사용하여 합성된 10만 개의 손으로 쓴 샘플이 포함되어 있습니다.
이 저장소에는 5개의 데이터 세트가 있습니다.
small
테스트에 사용되는 110개의 샘플이 포함된 소규모 데이터 세트입니다.full
이는 약 10만 건의 인쇄본에 대한 완전한 데이터 세트입니다. 사실, 샘플 수는 100k보다 약간 적습니다. 그 이유는 LaTeX의 추상 구문 트리를 사용하여 렌더링할 수 없는 많은 LaTeX를 제거했기 때문입니다.synthetic_handwrite
손으로 쓴 10만 자 문자의 완전한 데이터 세트입니다.full
이 공식은 사람이 종이에 쓴 글씨로 볼 수 있는 손으로 쓴 글꼴을 사용하여 합성되었습니다. 샘플의 수는 실제로 10만 개보다 약간 적습니다. 이유는 위와 같습니다.human_handwrite
이는 전자 화면에 나타난 사람의 필체와 더 일치하는 소규모의 필체 데이터 세트입니다. 주로 ~에서CROHME
. 우리는 LaTeX의 추상 구문 트리를 사용하여 이를 확인했습니다.human_handwrite_print
에서 온 것입니다human_handwrite
인쇄된 데이터 세트, 수식 부분 및human_handwrite
마찬가지로, 그림은 LaTeX를 사용하여 수식에서 렌더링됩니다.
LaTeX OCR 데이터 세트는 다음을 포함한 여러 소스에서 제공됩니다. https://zenodo.org/record/56198#.V2p0KTXT6eA
그리고 https://www.isical.ac.in/~crohme/
수집된 데이터뿐만 아니라, 스스로 구성한 데이터도 있습니다. OCR 모델을 훈련하고 평가하는 데 사용할 수 있으며, 복잡한 수학 기호와 공식을 처리할 때 특히 뛰어난 성능을 발휘합니다. 이는 학술 문서 디지털화, 온라인 교육, 과학 연구 지원 및 개인 학습 분야에서 널리 사용됩니다.
LaTeX_OCR.torrent
시딩 2다운로드 중 0완료됨 95총 다운로드 횟수 124