HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Semantik ermöglichen eine bessere textuelle Schlussfolgerung bei der Szenentexterkennung

Yue He Chen Chen Jing Zhang Juhua Liu Fengxiang He Chaoyue Wang Bo Du

Zusammenfassung

Bekannte Methoden zur Szenentexterkennung (Scene Text Recognition, STR) nutzen typischerweise ein Sprachmodell, um die gemeinsame Wahrscheinlichkeit der eindimensionalen Zeichenfolge zu optimieren, die von einem visuellen Erkennungsmodell (Visual Recognition, VR) vorhergesagt wird. Dabei werden jedoch die zweidimensionalen räumlichen Kontexte der visuellen Semantik innerhalb und zwischen einzelnen Zeicheninstanzen ignoriert, was zu einer schlechten Generalisierbarkeit bei beliebig geformten Szenentexten führt. Um dieses Problem anzugehen, unternehmen wir in diesem Artikel erstmals einen Ansatz zur textuellen Schlussfolgerung basierend auf visuellen Semantiken. Technisch gesehen konstruieren wir für jede Zeicheninstanz, basierend auf den von einem VR-Modell vorhergesagten Segmentierungskarten, einen Teilgraphen, wobei die Knoten die Pixel innerhalb der Instanz repräsentieren und Kanten zwischen Knoten aufgrund ihrer räumlichen Ähnlichkeit hinzugefügt werden. Diese Teilgraphen werden anschließend sequenziell über ihre Wurzelknoten verbunden und zu einem vollständigen Graphen verschmolzen. Auf Basis dieses Graphen entwickeln wir ein Graphen-Convolutional-Netzwerk für textuelle Schlussfolgerung (Graph-based Textual Reasoning, GTR), das mittels einer Kreuzentropie-Verlustfunktion trainiert wird. GTR kann problemlos in etablierte STR-Modelle integriert werden, um deren Leistung durch verbesserte textuelle Schlussfolgerung zu steigern. Konkret bauen wir unser Modell, S-GTR, durch parallele Integration von GTR neben dem Sprachmodell in einer basierenden-Segmentierung STR-Basisarchitektur auf, wodurch die visuell-linguistische Ergänzungsfähigkeit durch gegenseitiges Lernen effektiv ausgenutzt wird. S-GTR erreicht neue SOTA-Ergebnisse auf sechs anspruchsvollen STR-Benchmarks und zeigt eine gute Generalisierbarkeit auf mehrsprachige Datensätze. Der Quellcode ist unter https://github.com/adeline-cs/GTR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp