vor 2 Monaten

Die Bewertung von Sequenz-zu-Sequenz-Modellen für die Erkennung handschriftlicher Texte

Johannes Michael; Roger Labahn; Tobias Grüning; Jochen Zöllner

Abstract

Encoder-Decoder-Modelle sind zu einem effektiven Ansatz für sequenzielle Lernaufgaben wie maschinelle Übersetzung, Bildunterschriftenerstellung und Spracherkennung geworden, haben aber noch keine wettbewerbsfähigen Ergebnisse bei der Erkennung von Handschriften gezeigt. In diesem Zusammenhang schlagen wir ein aufmerksamkeitsbasiertes Sequenz-zu-Sequenz-Modell vor. Es kombiniert ein konvolutionsneuronales Netzwerk (CNN) als generischen Merkmalsextraktor mit einem rekurrenten Neuronalen Netzwerk (RNN), um sowohl die visuelle Information als auch den zeitlichen Kontext zwischen den Zeichen im Eingabebild zu kodieren, und verwendet ein separates RNN zur Dekodierung der tatsächlichen Zeichenfolge. Wir führen experimentelle Vergleiche verschiedener Aufmerksamkeitsmechanismen und positioneller Kodierungen durch, um eine geeignete Ausrichtung zwischen der Eingabe- und der Ausgabe-Sequenz zu finden. Das Modell kann end-to-end trainiert werden, und die optionale Integration eines hybriden Verlusts ermöglicht es dem Encoder, falls gewünscht, eine interpretierbare und nutzbare Ausgabe beizubehalten. Wir erzielen wettbewerbsfähige Ergebnisse auf den IAM- und ICFHR2016 READ-Datensätzen im Vergleich zum Stand der Technik ohne die Verwendung eines Sprachmodells und verbessern uns signifikant gegenüber allen jüngsten Sequenz-zu-Sequenz-Ansätzen.