HyperAIHyperAI
vor 2 Monaten

DAN: ein segmentierungsfreies Dokumentenaufmerksamkeitsnetzwerk für die Erkennung handschriftlicher Dokumente

Coquenet, Denis ; Chatelain, Clément ; Paquet, Thierry
DAN: ein segmentierungsfreies Dokumentenaufmerksamkeitsnetzwerk für die Erkennung handschriftlicher Dokumente
Abstract

Die Erkennung von unbeschränktem handschriftlichem Text ist eine anspruchsvolle Aufgabe im Bereich der Computer Vision. Traditionell wird sie durch einen zweistufigen Ansatz gelöst, der die Kombination aus Zeilensegmentierung und anschließender Textzeilerkennung umfasst. Zum ersten Mal schlagen wir hierfür eine segmentierungsfreie End-to-End-Architektur vor: das Document Attention Network (DAN). Neben der Texterkennung wird das Modell trainiert, Textteile mit Anfangs- und Endtags in einer XML-ähnlichen Struktur zu kennzeichnen. Dieses Modell besteht aus einem FCN-Codierer für die Merkmalsextraktion und einer Schicht von Transformer-Decodern für einen rekurrenten Prozess der Token-für-Token-Vorhersage. Es nimmt ganze Textdokumente als Eingabe entgegen und gibt sequentiell sowohl Buchstaben als auch logische Layout-Tokens aus. Im Gegensatz zu den bestehenden segmentierungsbasierten Ansätzen erfolgt das Training des Modells ohne Verwendung von Segmentierungslabels. Wir erzielen wettbewerbsfähige Ergebnisse auf dem READ 2016-Datensatz sowohl auf Seiten- als auch auf Doppelseitenebene, mit einem CER von 3,43 % und 3,70 % respektive. Zudem liefern wir Ergebnisse für den RIMES 2009-Datensatz auf Seitenebene, bei denen ein CER von 4,54 % erreicht wird.Wir stellen den gesamten Quellcode und die vortrainierten Modellgewichte unter https://github.com/FactoDeepLearning/DAN zur Verfügung.