HyperAIHyperAI
vor 9 Tagen

KOHTD: Kazakh Offline Handwritten Text Dataset

Nazgul Toiganbayeva, Mahmoud Kasem, Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Daniyar Nurseitov
KOHTD: Kazakh Offline Handwritten Text Dataset
Abstract

Trotz der Verschiebung hin zu digitaler Informationsübertragung erfordern viele Dokumente – wie Rechnungen, Steuerunterlagen, Memos, Fragebögen, historische Daten sowie Antworten auf Prüfungsfragen – weiterhin handschriftliche Eingaben. In diesem Zusammenhang besteht ein Bedarf an der Implementierung von Handwritten Text Recognition (HTR), einem automatischen Verfahren zur Entschlüsselung von Aufzeichnungen mittels Computer. Die Handschrifterkennung ist herausfordernd, da eine Person dieselbe Nachricht nahezu unendlich viele verschiedene Weisen schreiben kann. Für diesen Ansatz stellen wir die Forschung zur kasanischen Handschrifterkennung vor und betonen die Notwendigkeit eines umfassenden Datensatzes kasanischer Handschriften. Dies ist besonders relevant, da bisher kein solcher Datensatz für kasanische Handschriften existiert. In dieser Arbeit präsentieren wir unseren umfangreichen Offline-Handschrift-Datensatz für kasanische Texte (KOHTD), der 3000 handschriftliche Prüfungsarbeiten und über 140.335 segmentierte Bilder umfasst, wobei insgesamt etwa 922.010 Zeichen erfasst sind. Der Datensatz kann Forschern im Bereich der Handschrifterkennung als Grundlage für tiefes und maschinelles Lernen dienen. In unseren Studien haben wir eine Vielzahl gängiger Texterkennungsmethoden für die Wort- und Zeilenerkennung eingesetzt, darunter CTC-basierte und auf Aufmerksamkeit (attention-based) basierende Ansätze. Die Ergebnisse belegen die Vielfalt und Repräsentativität des KOHTD-Datensatzes. Zudem schlagen wir einen genetischen Algorithmus (GA) zur Zeilen- und Wortsegmentierung vor, der auf einer zufälligen Parametervariation basiert. Der Datensatz sowie der GA-Code sind unter https://github.com/abdoelsayed2016/KOHTD verfügbar.

KOHTD: Kazakh Offline Handwritten Text Dataset | Neueste Forschungsarbeiten | HyperAI