Command Palette
Search for a command to run...
Achten Sie darauf, was Sie lesen: Nicht-rekurrente Erkennung handschriftlicher Textzeilen
Achten Sie darauf, was Sie lesen: Nicht-rekurrente Erkennung handschriftlicher Textzeilen
Lei Kang Pau Riba Marçal Rusiñol Alicia Fornés Mauricio Villegas
Zusammenfassung
Der Aufstieg rekurrenter neuronalen Netze für die Handschrifterkennung markierte einen wichtigen Meilenstein, bei dem trotz der erheblichen Variabilität zwischen verschiedenen Schreibstilen beeindruckende Erkennungsgenauigkeiten erzielt wurden. Sequenzielle Architekturen eignen sich ideal zur Modellierung von Textzeilen, nicht nur aufgrund des inhärenten zeitlichen Aspekts von Text, sondern auch, um Wahrscheinlichkeitsverteilungen über Folgen von Zeichen und Wörtern zu lernen. Allerdings birgt der Einsatz solcher rekurrenter Paradigmen im Trainingsprozess einen Preis, da ihre sequenziellen Datenströme eine Parallelisierung verhindern. In dieser Arbeit stellen wir einen nicht-rekurrenten Ansatz zur Erkennung handschriftlichen Textes mittels Transformer-Modelle vor. Wir schlagen eine neuartige Methode vor, die jegliche Rekurrenz umgeht. Durch den Einsatz von Multi-Head-Self-Attention-Schichten sowohl auf visueller als auch auf textueller Ebene gelingt es uns, die Zeichenerkennung zu bewältigen sowie sprachbezogene Abhängigkeiten der zu decodierenden Zeichenfolgen zu lernen. Unser Modell ist keiner vorgegebenen Vokabellänge unterworfen und kann somit auch Wörter außerhalb des Trainingsvokabulars erkennen, also Wörter, die im Trainingsvokabular nicht vorkommen. Wir erreichen eine erhebliche Verbesserung gegenüber vorherigen Ansätzen und zeigen, dass bereits in Few-Shot-Lernszenarien zufriedenstellende Erkennungsgenauigkeiten erzielt werden können.