HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Reconnaissance De Formules Mathématiques OCR LaTeX

Date

il y a un an

Taille

905.81 MB

URL de publication

github.com

Balises

L'ensemble de données LaTeX OCR est un ensemble de données qui se concentre sur le problème complexe de reconnaissance de formules mathématiques dans le domaine de la reconnaissance optique de caractères (OCR). L'ensemble de données LaTeX OCR contient plusieurs configurations, chacune avec des fonctionnalités et un partitionnement de données différents. Par exemple, la configuration « complète » contient environ 100 000 échantillons imprimés, tandis que la configuration « synthetic_handwrite » contient 100 000 échantillons manuscrits synthétisés à l'aide de polices manuscrites basées sur des formules imprimées.

Ce référentiel contient 5 jeux de données :

  1. small Il s'agit d'un petit ensemble de données avec 110 échantillons, utilisé pour les tests
  2. full Il s’agit d’un ensemble de données complet d’environ 100 000 exemplaires imprimés. En fait, le nombre d'échantillons est légèrement inférieur à 100 000, car une grande partie du LaTeX non affichable est supprimée à l'aide de l'arbre syntaxique abstrait de LaTeX.
  3. synthetic_handwrite Il s'agit d'un ensemble de données complet de 100 000 caractères manuscrits, basé sur full La formule est synthétisée à l’aide de polices manuscrites, qui peuvent être considérées comme de l’écriture humaine sur du papier. Le nombre d'échantillons est en fait légèrement inférieur à 100 000, pour la même raison que ci-dessus.
  4. human_handwrite Il s’agit d’un ensemble de données d’écriture manuscrite plus petit, plus cohérent avec l’écriture manuscrite humaine sur les écrans électroniques. Principalement de CROHME . Nous l'avons vérifié avec l'arbre syntaxique abstrait de LaTeX.
  5. human_handwrite_print Est de human_handwrite L'ensemble de données imprimé, la partie formule et human_handwrite De même, les images sont rendues à partir de formules utilisant LaTeX.

L'ensemble de données OCR LaTeX provient de plusieurs sources, notamment https://zenodo.org/record/56198#.V2p0KTXT6eA et https://www.isical.ac.in/~crohme/ Données collectées, ainsi que données construites par vous-même. Il peut être utilisé pour former et évaluer des modèles OCR et fonctionne particulièrement bien lors du traitement de symboles et de formules mathématiques complexes. Il est largement utilisé dans les domaines de la numérisation de documents académiques, de l'éducation en ligne, des assistants de recherche scientifique et de l'apprentissage personnel.

LaTeX_OCR.torrent
Seeding 1Téléchargement 0Terminé 231Total Downloads 392
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp