Selbstüberwachtes implizites Glyphen-Attention für die Texterkennung

Die Aufmerksamkeitsmechanismen sind aufgrund ihrer Fähigkeit, zeichenbasierte Darstellungen zu extrahieren, zum \emph{de facto}-Standardmodul in Methoden zur Szenentexterkennung (Scene Text Recognition, STR) geworden. Diese Ansätze lassen sich je nach Berechnungsweise der Aufmerksamkeit in zwei Kategorien einteilen: implizite Aufmerksamkeit und überwachte Aufmerksamkeit. Implizite Aufmerksamkeit wird aus sequenzbasierten Textannotierungen gelernt, während überwachte Aufmerksamkeit auf zeichenbasierten Bounding-Box-Annotierungen basiert. Da implizite Aufmerksamkeit gelegentlich grobe oder sogar fehlerhafte räumliche Regionen als zeichenbezogene Aufmerksamkeitsregionen extrahiert, ist sie anfällig für das sogenannte Alignment-Drift-Problem. Obwohl überwachte Aufmerksamkeit dieses Problem abmildern kann, ist sie kategorienabhängig und erfordert zusätzliche aufwändige zeichenbasierte Bounding-Box-Annotierungen; zudem ist sie speicherintensiv, wenn Sprachen mit einer großen Anzahl von Zeichenkategorien behandelt werden müssen. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen Aufmerksamkeitsmechanismus für STR vor: den selbstüberwachten impliziten Glyphen-Aufmerksamkeitsmechanismus (Self-supervised Implicit Glyph Attention, SIGA). SIGA definiert die Glyphenstruktur von Textbildern durch eine gemeinsame selbstüberwachte Textsegmentierung und die Ausrichtung impliziter Aufmerksamkeit, wodurch eine Supervision bereitgestellt wird, die die Korrektheit der Aufmerksamkeit verbessert, ohne zusätzliche zeichenbasierte Annotierungen zu erfordern. Experimentelle Ergebnisse zeigen, dass SIGA sowohl hinsichtlich der Korrektheit der Aufmerksamkeit als auch der endgültigen Erkennungsleistung konsistent und signifikant besser abschneidet als bisherige auf Aufmerksamkeit basierende STR-Methoden, sowohl auf öffentlich verfügbaren Kontext-Benchmarks als auch auf unseren beigesteuerten kontextlosen Benchmarks.