HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachtes implizites Glyphen-Attention für die Texterkennung

Tongkun Guan Chaochen Gu Jingzheng Tu Xue Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen

Zusammenfassung

Die Aufmerksamkeitsmechanismen sind aufgrund ihrer Fähigkeit, zeichenbasierte Darstellungen zu extrahieren, zum \emph{de facto}-Standardmodul in Methoden zur Szenentexterkennung (Scene Text Recognition, STR) geworden. Diese Ansätze lassen sich je nach Berechnungsweise der Aufmerksamkeit in zwei Kategorien einteilen: implizite Aufmerksamkeit und überwachte Aufmerksamkeit. Implizite Aufmerksamkeit wird aus sequenzbasierten Textannotierungen gelernt, während überwachte Aufmerksamkeit auf zeichenbasierten Bounding-Box-Annotierungen basiert. Da implizite Aufmerksamkeit gelegentlich grobe oder sogar fehlerhafte räumliche Regionen als zeichenbezogene Aufmerksamkeitsregionen extrahiert, ist sie anfällig für das sogenannte Alignment-Drift-Problem. Obwohl überwachte Aufmerksamkeit dieses Problem abmildern kann, ist sie kategorienabhängig und erfordert zusätzliche aufwändige zeichenbasierte Bounding-Box-Annotierungen; zudem ist sie speicherintensiv, wenn Sprachen mit einer großen Anzahl von Zeichenkategorien behandelt werden müssen. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen Aufmerksamkeitsmechanismus für STR vor: den selbstüberwachten impliziten Glyphen-Aufmerksamkeitsmechanismus (Self-supervised Implicit Glyph Attention, SIGA). SIGA definiert die Glyphenstruktur von Textbildern durch eine gemeinsame selbstüberwachte Textsegmentierung und die Ausrichtung impliziter Aufmerksamkeit, wodurch eine Supervision bereitgestellt wird, die die Korrektheit der Aufmerksamkeit verbessert, ohne zusätzliche zeichenbasierte Annotierungen zu erfordern. Experimentelle Ergebnisse zeigen, dass SIGA sowohl hinsichtlich der Korrektheit der Aufmerksamkeit als auch der endgültigen Erkennungsleistung konsistent und signifikant besser abschneidet als bisherige auf Aufmerksamkeit basierende STR-Methoden, sowohl auf öffentlich verfügbaren Kontext-Benchmarks als auch auf unseren beigesteuerten kontextlosen Benchmarks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstüberwachtes implizites Glyphen-Attention für die Texterkennung | Paper | HyperAI