Datum

vor 2 Jahren

Größe

905.81 MB

Veröffentlichungs-URL

Tags

Der LaTeX OCR-Datensatz ist ein Datensatz, der sich auf das komplexe Problem der Erkennung mathematischer Formeln im Bereich der optischen Zeichenerkennung (OCR) konzentriert. Der LaTeX OCR-Datensatz enthält mehrere Konfigurationen, jede mit unterschiedlichen Funktionen und Datenpartitionierung. Beispielsweise enthält die Konfiguration „vollständig“ etwa 100.000 gedruckte Beispiele, während die Konfiguration „synthetic_handwrite“ 100.000 handschriftliche Beispiele enthält, die mithilfe handschriftlicher Schriftarten auf der Grundlage gedruckter Formeln synthetisiert wurden. Dieses Repository enthält 5 Datensätze:

small Es handelt sich um einen kleinen Datensatz mit 110 Proben, der zum Testen verwendet wird
full Es handelt sich um einen vollständigen Datensatz mit etwa 100.000 gedruckten Wörtern. Tatsächlich liegt die Anzahl der Beispiele etwas unter 100.000, da mithilfe des abstrakten Syntaxbaums von LaTeX viel nicht renderbares LaTeX entfernt wird.
synthetic_handwrite Es handelt sich um einen vollständigen Datensatz mit 100.000 handgeschriebenen Zeichen, basierend auf full Die Formel wird mithilfe handschriftlicher Schriftarten synthetisiert, die als menschliche Handschrift auf Papier angesehen werden können. Aus dem gleichen Grund wie oben liegt die Anzahl der Samples tatsächlich etwas unter 100.000.
human_handwrite Es handelt sich um einen kleineren Handschriftdatensatz, der der menschlichen Handschrift auf elektronischen Bildschirmen besser entspricht. Hauptsächlich aus CROHME . Wir haben es mit dem abstrakten Syntaxbaum von LaTeX überprüft.
human_handwrite_print Ist von human_handwrite Der ausgedruckte Datensatz, Formelteil und human_handwrite Ebenso werden die Bilder aus Formeln mit LaTeX gerendert. Der LaTeX OCR-Datensatz stammt aus mehreren Quellen, darunter https://zenodo.org/record/56198#.V2p0KTXT6eA Und https://www.isical.ac.in/~crohme/ Erfasste Daten sowie selbst erstellte Daten. Es kann zum Trainieren und Auswerten von OCR-Modellen verwendet werden und eignet sich besonders gut für die Verarbeitung komplexer mathematischer Symbole und Formeln. Es wird häufig in den Bereichen der Digitalisierung akademischer Dokumente, der Online-Bildung, für wissenschaftliche Forschungsassistenten und beim persönlichen Lernen eingesetzt.

LaTeX_OCR.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 247Gesamtdownloads 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Open-RL Inferenzproblem-Datensatz

vor 4 Monaten

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

vor 5 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

905.81 MB

Veröffentlichungs-URL

github.com

Open-RL Inferenzproblem-Datensatz

vor 4 Monaten

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

vor 5 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LaTeX OCR-Datensatz Zur Erkennung Mathematischer Formeln

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LaTeX OCR-Datensatz Zur Erkennung Mathematischer Formeln

Open-RL Inferenzproblem-Datensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LaTeX OCR-Datensatz Zur Erkennung Mathematischer Formeln

Open-RL Inferenzproblem-Datensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

KI mit KI entwickeln

HyperAI Newsletters

Open-RL Inferenzproblem-Datensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

Open-RL Inferenzproblem-Datensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz