HyperAI

LaTeX OCR-Datensatz Zur Erkennung Mathematischer Formeln

Datum

vor 4 Monaten

Größe

905.81 MB

Veröffentlichungs-URL

github.com

Der LaTeX OCR-Datensatz ist ein Datensatz, der sich auf das komplexe Problem der Erkennung mathematischer Formeln im Bereich der optischen Zeichenerkennung (OCR) konzentriert. Der LaTeX OCR-Datensatz enthält mehrere Konfigurationen, jede mit unterschiedlichen Funktionen und Datenpartitionierung. Beispielsweise enthält die Konfiguration „vollständig“ etwa 100.000 gedruckte Beispiele, während die Konfiguration „synthetic_handwrite“ 100.000 handschriftliche Beispiele enthält, die mithilfe handschriftlicher Schriftarten auf der Grundlage gedruckter Formeln synthetisiert wurden.

Dieses Repository enthält 5 Datensätze:

  1. small Es handelt sich um einen kleinen Datensatz mit 110 Proben, der zum Testen verwendet wird
  2. full Es handelt sich um einen vollständigen Datensatz mit etwa 100.000 gedruckten Wörtern. Tatsächlich liegt die Anzahl der Beispiele etwas unter 100.000, da mithilfe des abstrakten Syntaxbaums von LaTeX viel nicht renderbares LaTeX entfernt wird.
  3. synthetic_handwrite Es handelt sich um einen vollständigen Datensatz mit 100.000 handgeschriebenen Zeichen, basierend auf full Die Formel wird mithilfe handschriftlicher Schriftarten synthetisiert, die als menschliche Handschrift auf Papier angesehen werden können. Aus dem gleichen Grund wie oben liegt die Anzahl der Samples tatsächlich etwas unter 100.000.
  4. human_handwrite Es handelt sich um einen kleineren Handschriftdatensatz, der der menschlichen Handschrift auf elektronischen Bildschirmen besser entspricht. Hauptsächlich aus CROHME . Wir haben es mit dem abstrakten Syntaxbaum von LaTeX überprüft.
  5. human_handwrite_print Ist von human_handwrite Der ausgedruckte Datensatz, Formelteil und human_handwrite Ebenso werden die Bilder aus Formeln mit LaTeX gerendert.

Der LaTeX OCR-Datensatz stammt aus mehreren Quellen, darunter https://zenodo.org/record/56198#.V2p0KTXT6eA Und https://www.isical.ac.in/~crohme/ Erfasste Daten sowie selbst erstellte Daten. Es kann zum Trainieren und Auswerten von OCR-Modellen verwendet werden und eignet sich besonders gut für die Verarbeitung komplexer mathematischer Symbole und Formeln. Es wird häufig in den Bereichen der Digitalisierung akademischer Dokumente, der Online-Bildung, für wissenschaftliche Forschungsassistenten und beim persönlichen Lernen eingesetzt.

LaTeX_OCR.torrent
Seeding 2Herunterladen 0Abgeschlossen 95Gesamtdownloads 124
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB