vor 6 Monaten

Zusammenfassung

Die Aufmerksamkeitsmechanismen sind aufgrund ihrer Fähigkeit, zeichenbasierte Darstellungen zu extrahieren, zum \emph{de facto}-Standardmodul in Methoden zur Szenentexterkennung (Scene Text Recognition, STR) geworden. Diese Ansätze lassen sich je nach Berechnungsweise der Aufmerksamkeit in zwei Kategorien einteilen: implizite Aufmerksamkeit und überwachte Aufmerksamkeit. Implizite Aufmerksamkeit wird aus sequenzbasierten Textannotierungen gelernt, während überwachte Aufmerksamkeit auf zeichenbasierten Bounding-Box-Annotierungen basiert. Da implizite Aufmerksamkeit gelegentlich grobe oder sogar fehlerhafte räumliche Regionen als zeichenbezogene Aufmerksamkeitsregionen extrahiert, ist sie anfällig für das sogenannte Alignment-Drift-Problem. Obwohl überwachte Aufmerksamkeit dieses Problem abmildern kann, ist sie kategorienabhängig und erfordert zusätzliche aufwändige zeichenbasierte Bounding-Box-Annotierungen; zudem ist sie speicherintensiv, wenn Sprachen mit einer großen Anzahl von Zeichenkategorien behandelt werden müssen. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen Aufmerksamkeitsmechanismus für STR vor: den selbstüberwachten impliziten Glyphen-Aufmerksamkeitsmechanismus (Self-supervised Implicit Glyph Attention, SIGA). SIGA definiert die Glyphenstruktur von Textbildern durch eine gemeinsame selbstüberwachte Textsegmentierung und die Ausrichtung impliziter Aufmerksamkeit, wodurch eine Supervision bereitgestellt wird, die die Korrektheit der Aufmerksamkeit verbessert, ohne zusätzliche zeichenbasierte Annotierungen zu erfordern. Experimentelle Ergebnisse zeigen, dass SIGA sowohl hinsichtlich der Korrektheit der Aufmerksamkeit als auch der endgültigen Erkennungsleistung konsistent und signifikant besser abschneidet als bisherige auf Aufmerksamkeit basierende STR-Methoden, sowohl auf öffentlich verfügbaren Kontext-Benchmarks als auch auf unseren beigesteuerten kontextlosen Benchmarks.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Tongkun Guan Chaochen Gu Jingzheng Tu Xue Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Tongkun Guan Chaochen Gu Jingzheng Tu Xue Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Selbstüberwachtes implizites Glyphen-Attention für die Texterkennung

Tongkun Guan Chaochen Gu Jingzheng Tu Xue Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Selbstüberwachtes implizites Glyphen-Attention für die Texterkennung

Tongkun Guan Chaochen Gu Jingzheng Tu Xue Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Selbstüberwachtes implizites Glyphen-Attention für die Texterkennung

Tongkun Guan Chaochen Gu Jingzheng Tu Xue Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters