vor 15 Tagen

End-to-End Erkennung handschriftlicher Absatztexte unter Verwendung eines vertikalen Aufmerksamkeitsnetzwerks

Denis Coquenet, Clément Chatelain, Thierry Paquet

Abstract

Die unbeschränkte Erkennung handschriftlicher Texte bleibt für Computer-Vision-Systeme weiterhin herausfordernd. Die Erkennung von Absatztexten wird traditionell durch zwei Modelle erreicht: das erste Modell dient der Zeilensegmentierung, das zweite der Erkennung einzelner Textzeilen. Wir stellen ein einheitliches End-to-End-Modell vor, das hybride Aufmerksamkeit nutzt, um diese Aufgabe zu bewältigen. Das Modell ist so entworfen, dass es ein Bild eines Absatzes zeilenweise iterativ verarbeitet. Es lässt sich in drei Module aufteilen: Ein Encoder erzeugt aus dem gesamten Absatzbild Merkmalskarten. Anschließend generiert ein Aufmerksamkeitsmodul rekursiv eine vertikale gewichtete Maske, die es ermöglicht, sich auf die Merkmale der aktuellen Textzeile zu konzentrieren. Auf diese Weise erfolgt eine Art implizite Zeilensegmentierung. Für die Merkmale jeder Textzeile erkennt ein Decoder die zugehörige Zeichenfolge, was letztlich die Erkennung des gesamten Absatzes ermöglicht. Wir erreichen auf drei gängigen Datensätzen den Stand der Technik hinsichtlich der Zeichenfehlerrate auf Absatzebene: 1,91 % für RIMES, 4,45 % für IAM und 3,59 % für READ 2016. Unser Quellcode sowie die vortrainierten Modellgewichte sind unter https://github.com/FactoDeepLearning/VerticalAttentionOCR verfügbar.