HyperAIHyperAI
vor 15 Tagen

Easter2.0: Verbesserung von Faltungsmodellen für die Erkennung handschriftlicher Texte

Kartik Chaudhary, Raghav Bali
Easter2.0: Verbesserung von Faltungsmodellen für die Erkennung handschriftlicher Texte
Abstract

Convolutional Neural Networks (CNN) haben vielversprechende Ergebnisse für die Aufgabe der Handschriftenerkennung (Handwritten Text Recognition, HTR) gezeigt, erzielen jedoch weiterhin hinter Recurrent Neural Networks (RNNs)/Transformer-basierten Modellen in Bezug auf die Leistungsfähigkeit. In diesem Paper stellen wir eine auf CNN basierende Architektur vor, die diese Lücke schließt. Unser Ansatz, Easter2.0, besteht aus mehreren Schichten von 1D-Konvolutionen, Batch-Normalisierung, ReLU, Dropout, dichten residualen Verbindungen, einem Squeeze-and-Excitation-Modul sowie der Verwendung der Connectionist Temporal Classification (CTC)-Verlustfunktion. Zusätzlich zur Easter2.0-Architektur präsentieren wir eine einfache und effektive Technik zur Datenverstärkung namens „Tiling and Corruption (TACO)“, die speziell für die Aufgabenstellung HTR/OCR geeignet ist. Unser Ansatz erreicht state-of-the-art Ergebnisse auf der IAM-Handschrift-Datenbank, wenn er ausschließlich mit öffentlich verfügbaren Trainingsdaten trainiert wird. In unseren Experimenten untersuchen wir zudem die Wirkung der TACO-Verstärkung und des Squeeze-and-Excitation-Moduls auf die Genauigkeit der Texterkennung. Darüber hinaus zeigen wir, dass Easter2.0 gut für Few-Shot-Lernaufgaben geeignet ist und bei begrenzten Mengen an annotierten Daten die derzeit besten Methoden, einschließlich Transformer-Modelle, übertrifft. Der Quellcode und die Modelle sind unter folgender URL verfügbar: https://github.com/kartikgill/Easter2

Easter2.0: Verbesserung von Faltungsmodellen für die Erkennung handschriftlicher Texte | Neueste Forschungsarbeiten | HyperAI