Visuelle Semantik ermöglichen eine bessere textuelle Schlussfolgerung bei der Szenentexterkennung

Bekannte Methoden zur Szenentexterkennung (Scene Text Recognition, STR) nutzen typischerweise ein Sprachmodell, um die gemeinsame Wahrscheinlichkeit der eindimensionalen Zeichenfolge zu optimieren, die von einem visuellen Erkennungsmodell (Visual Recognition, VR) vorhergesagt wird. Dabei werden jedoch die zweidimensionalen räumlichen Kontexte der visuellen Semantik innerhalb und zwischen einzelnen Zeicheninstanzen ignoriert, was zu einer schlechten Generalisierbarkeit bei beliebig geformten Szenentexten führt. Um dieses Problem anzugehen, unternehmen wir in diesem Artikel erstmals einen Ansatz zur textuellen Schlussfolgerung basierend auf visuellen Semantiken. Technisch gesehen konstruieren wir für jede Zeicheninstanz, basierend auf den von einem VR-Modell vorhergesagten Segmentierungskarten, einen Teilgraphen, wobei die Knoten die Pixel innerhalb der Instanz repräsentieren und Kanten zwischen Knoten aufgrund ihrer räumlichen Ähnlichkeit hinzugefügt werden. Diese Teilgraphen werden anschließend sequenziell über ihre Wurzelknoten verbunden und zu einem vollständigen Graphen verschmolzen. Auf Basis dieses Graphen entwickeln wir ein Graphen-Convolutional-Netzwerk für textuelle Schlussfolgerung (Graph-based Textual Reasoning, GTR), das mittels einer Kreuzentropie-Verlustfunktion trainiert wird. GTR kann problemlos in etablierte STR-Modelle integriert werden, um deren Leistung durch verbesserte textuelle Schlussfolgerung zu steigern. Konkret bauen wir unser Modell, S-GTR, durch parallele Integration von GTR neben dem Sprachmodell in einer basierenden-Segmentierung STR-Basisarchitektur auf, wodurch die visuell-linguistische Ergänzungsfähigkeit durch gegenseitiges Lernen effektiv ausgenutzt wird. S-GTR erreicht neue SOTA-Ergebnisse auf sechs anspruchsvollen STR-Benchmarks und zeigt eine gute Generalisierbarkeit auf mehrsprachige Datensätze. Der Quellcode ist unter https://github.com/adeline-cs/GTR verfügbar.