HyperAI

Ensemble De Données De Reconnaissance De Formules Mathématiques OCR LaTeX

L'ensemble de données LaTeX OCR est un ensemble de données qui se concentre sur le problème complexe de reconnaissance de formules mathématiques dans le domaine de la reconnaissance optique de caractères (OCR). L'ensemble de données LaTeX OCR contient plusieurs configurations, chacune avec des fonctionnalités et un partitionnement de données différents. Par exemple, la configuration « complète » contient environ 100 000 échantillons imprimés, tandis que la configuration « synthetic_handwrite » contient 100 000 échantillons manuscrits synthétisés à l'aide de polices manuscrites basées sur des formules imprimées.

Ce référentiel contient 5 jeux de données :

  1. small Il s'agit d'un petit ensemble de données avec 110 échantillons, utilisé pour les tests
  2. full Il s’agit d’un ensemble de données complet d’environ 100 000 exemplaires imprimés. En fait, le nombre d'échantillons est légèrement inférieur à 100 000, car une grande partie du LaTeX non affichable est supprimée à l'aide de l'arbre syntaxique abstrait de LaTeX.
  3. synthetic_handwrite Il s'agit d'un ensemble de données complet de 100 000 caractères manuscrits, basé sur full La formule est synthétisée à l’aide de polices manuscrites, qui peuvent être considérées comme de l’écriture humaine sur du papier. Le nombre d'échantillons est en fait légèrement inférieur à 100 000, pour la même raison que ci-dessus.
  4. human_handwrite Il s’agit d’un ensemble de données d’écriture manuscrite plus petit, plus cohérent avec l’écriture manuscrite humaine sur les écrans électroniques. Principalement de CROHME . Nous l'avons vérifié avec l'arbre syntaxique abstrait de LaTeX.
  5. human_handwrite_print Est de human_handwrite L'ensemble de données imprimé, la partie formule et human_handwrite De même, les images sont rendues à partir de formules utilisant LaTeX.

L'ensemble de données OCR LaTeX provient de plusieurs sources, notamment https://zenodo.org/record/56198#.V2p0KTXT6eA et https://www.isical.ac.in/~crohme/ Données collectées, ainsi que données construites par vous-même. Il peut être utilisé pour former et évaluer des modèles OCR et fonctionne particulièrement bien lors du traitement de symboles et de formules mathématiques complexes. Il est largement utilisé dans les domaines de la numérisation de documents académiques, de l'éducation en ligne, des assistants de recherche scientifique et de l'apprentissage personnel.

LaTeX_OCR.torrent
Partage 2Téléchargement 0Terminés 95Téléchargements totaux 124
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB