HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Erkennung handschriftlicher Absatztexte unter Verwendung eines vertikalen Aufmerksamkeitsnetzwerks

Denis Coquenet Clément Chatelain Thierry Paquet

Zusammenfassung

Die unbeschränkte Erkennung handschriftlicher Texte bleibt für Computer-Vision-Systeme weiterhin herausfordernd. Die Erkennung von Absatztexten wird traditionell durch zwei Modelle erreicht: das erste Modell dient der Zeilensegmentierung, das zweite der Erkennung einzelner Textzeilen. Wir stellen ein einheitliches End-to-End-Modell vor, das hybride Aufmerksamkeit nutzt, um diese Aufgabe zu bewältigen. Das Modell ist so entworfen, dass es ein Bild eines Absatzes zeilenweise iterativ verarbeitet. Es lässt sich in drei Module aufteilen: Ein Encoder erzeugt aus dem gesamten Absatzbild Merkmalskarten. Anschließend generiert ein Aufmerksamkeitsmodul rekursiv eine vertikale gewichtete Maske, die es ermöglicht, sich auf die Merkmale der aktuellen Textzeile zu konzentrieren. Auf diese Weise erfolgt eine Art implizite Zeilensegmentierung. Für die Merkmale jeder Textzeile erkennt ein Decoder die zugehörige Zeichenfolge, was letztlich die Erkennung des gesamten Absatzes ermöglicht. Wir erreichen auf drei gängigen Datensätzen den Stand der Technik hinsichtlich der Zeichenfehlerrate auf Absatzebene: 1,91 % für RIMES, 4,45 % für IAM und 3,59 % für READ 2016. Unser Quellcode sowie die vortrainierten Modellgewichte sind unter https://github.com/FactoDeepLearning/VerticalAttentionOCR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
End-to-End Erkennung handschriftlicher Absatztexte unter Verwendung eines vertikalen Aufmerksamkeitsnetzwerks | Paper | HyperAI