LaTeX OCR-Datensatz Zur Erkennung Mathematischer Formeln
Datum
Größe
Veröffentlichungs-URL
Kategorien
Der LaTeX OCR-Datensatz ist ein Datensatz, der sich auf das komplexe Problem der Erkennung mathematischer Formeln im Bereich der optischen Zeichenerkennung (OCR) konzentriert. Der LaTeX OCR-Datensatz enthält mehrere Konfigurationen, jede mit unterschiedlichen Funktionen und Datenpartitionierung. Beispielsweise enthält die Konfiguration „vollständig“ etwa 100.000 gedruckte Beispiele, während die Konfiguration „synthetic_handwrite“ 100.000 handschriftliche Beispiele enthält, die mithilfe handschriftlicher Schriftarten auf der Grundlage gedruckter Formeln synthetisiert wurden.
Dieses Repository enthält 5 Datensätze:
small
Es handelt sich um einen kleinen Datensatz mit 110 Proben, der zum Testen verwendet wirdfull
Es handelt sich um einen vollständigen Datensatz mit etwa 100.000 gedruckten Wörtern. Tatsächlich liegt die Anzahl der Beispiele etwas unter 100.000, da mithilfe des abstrakten Syntaxbaums von LaTeX viel nicht renderbares LaTeX entfernt wird.synthetic_handwrite
Es handelt sich um einen vollständigen Datensatz mit 100.000 handgeschriebenen Zeichen, basierend auffull
Die Formel wird mithilfe handschriftlicher Schriftarten synthetisiert, die als menschliche Handschrift auf Papier angesehen werden können. Aus dem gleichen Grund wie oben liegt die Anzahl der Samples tatsächlich etwas unter 100.000.human_handwrite
Es handelt sich um einen kleineren Handschriftdatensatz, der der menschlichen Handschrift auf elektronischen Bildschirmen besser entspricht. Hauptsächlich ausCROHME
. Wir haben es mit dem abstrakten Syntaxbaum von LaTeX überprüft.human_handwrite_print
Ist vonhuman_handwrite
Der ausgedruckte Datensatz, Formelteil undhuman_handwrite
Ebenso werden die Bilder aus Formeln mit LaTeX gerendert.
Der LaTeX OCR-Datensatz stammt aus mehreren Quellen, darunter https://zenodo.org/record/56198#.V2p0KTXT6eA
Und https://www.isical.ac.in/~crohme/
Erfasste Daten sowie selbst erstellte Daten. Es kann zum Trainieren und Auswerten von OCR-Modellen verwendet werden und eignet sich besonders gut für die Verarbeitung komplexer mathematischer Symbole und Formeln. Es wird häufig in den Bereichen der Digitalisierung akademischer Dokumente, der Online-Bildung, für wissenschaftliche Forschungsassistenten und beim persönlichen Lernen eingesetzt.