Ensemble De Données De Reconnaissance De Formules Mathématiques OCR LaTeX
Date
Taille
URL de publication
L'ensemble de données LaTeX OCR est un ensemble de données qui se concentre sur le problème complexe de reconnaissance de formules mathématiques dans le domaine de la reconnaissance optique de caractères (OCR). L'ensemble de données LaTeX OCR contient plusieurs configurations, chacune avec des fonctionnalités et un partitionnement de données différents. Par exemple, la configuration « complète » contient environ 100 000 échantillons imprimés, tandis que la configuration « synthetic_handwrite » contient 100 000 échantillons manuscrits synthétisés à l'aide de polices manuscrites basées sur des formules imprimées.
Ce référentiel contient 5 jeux de données :
small
Il s'agit d'un petit ensemble de données avec 110 échantillons, utilisé pour les testsfull
Il s’agit d’un ensemble de données complet d’environ 100 000 exemplaires imprimés. En fait, le nombre d'échantillons est légèrement inférieur à 100 000, car une grande partie du LaTeX non affichable est supprimée à l'aide de l'arbre syntaxique abstrait de LaTeX.synthetic_handwrite
Il s'agit d'un ensemble de données complet de 100 000 caractères manuscrits, basé surfull
La formule est synthétisée à l’aide de polices manuscrites, qui peuvent être considérées comme de l’écriture humaine sur du papier. Le nombre d'échantillons est en fait légèrement inférieur à 100 000, pour la même raison que ci-dessus.human_handwrite
Il s’agit d’un ensemble de données d’écriture manuscrite plus petit, plus cohérent avec l’écriture manuscrite humaine sur les écrans électroniques. Principalement deCROHME
. Nous l'avons vérifié avec l'arbre syntaxique abstrait de LaTeX.human_handwrite_print
Est dehuman_handwrite
L'ensemble de données imprimé, la partie formule ethuman_handwrite
De même, les images sont rendues à partir de formules utilisant LaTeX.
L'ensemble de données OCR LaTeX provient de plusieurs sources, notamment https://zenodo.org/record/56198#.V2p0KTXT6eA
et https://www.isical.ac.in/~crohme/
Données collectées, ainsi que données construites par vous-même. Il peut être utilisé pour former et évaluer des modèles OCR et fonctionne particulièrement bien lors du traitement de symboles et de formules mathématiques complexes. Il est largement utilisé dans les domaines de la numérisation de documents académiques, de l'éducation en ligne, des assistants de recherche scientifique et de l'apprentissage personnel.