HyperAIHyperAI

Command Palette

Search for a command to run...

DAN: ein segmentierungsfreies Dokumentenaufmerksamkeitsnetzwerk für die Erkennung handschriftlicher Dokumente

Denis Coquenet Clément Chatelain Thierry Paquet

Zusammenfassung

Die Erkennung von unbeschränktem handschriftlichem Text ist eine anspruchsvolle Aufgabe im Bereich der Computer Vision. Traditionell wird sie durch einen zweistufigen Ansatz gelöst, der die Kombination aus Zeilensegmentierung und anschließender Textzeilerkennung umfasst. Zum ersten Mal schlagen wir hierfür eine segmentierungsfreie End-to-End-Architektur vor: das Document Attention Network (DAN). Neben der Texterkennung wird das Modell trainiert, Textteile mit Anfangs- und Endtags in einer XML-ähnlichen Struktur zu kennzeichnen. Dieses Modell besteht aus einem FCN-Codierer für die Merkmalsextraktion und einer Schicht von Transformer-Decodern für einen rekurrenten Prozess der Token-für-Token-Vorhersage. Es nimmt ganze Textdokumente als Eingabe entgegen und gibt sequentiell sowohl Buchstaben als auch logische Layout-Tokens aus. Im Gegensatz zu den bestehenden segmentierungsbasierten Ansätzen erfolgt das Training des Modells ohne Verwendung von Segmentierungslabels. Wir erzielen wettbewerbsfähige Ergebnisse auf dem READ 2016-Datensatz sowohl auf Seiten- als auch auf Doppelseitenebene, mit einem CER von 3,43 % und 3,70 % respektive. Zudem liefern wir Ergebnisse für den RIMES 2009-Datensatz auf Seitenebene, bei denen ein CER von 4,54 % erreicht wird.Wir stellen den gesamten Quellcode und die vortrainierten Modellgewichte unter https://github.com/FactoDeepLearning/DAN zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp