ABINet++: Autonome, bidirektionale und iterative Sprachmodellierung für die Erkennung von Szenentexten

Die Erkennung von Szenentext (Scene Text Spotting) ist aufgrund ihrer vielfältigen Anwendungen von großer Bedeutung für die Computer Vision-Community. Rekente Methoden versuchen nun, sprachliches Wissen für die Herausforderung der Texterkennung einzubringen, anstatt sich ausschließlich auf reine visuelle Klassifikation zu stützen. Dennoch bleibt die effektive Modellierung sprachlicher Regeln in end-to-end tiefen neuronalen Netzwerken weiterhin eine Forschungsherausforderung. In diesem Artikel argumentieren wir, dass die begrenzte Leistungsfähigkeit von Sprachmodellen auf drei Faktoren zurückzuführen ist: 1) implizites Sprachmodellieren; 2) einseitige Merkmalsdarstellung; und 3) Sprachmodelle mit verrauschten Eingaben. Dementsprechend schlagen wir ABINet++ vor – ein autonomes, bidirektionales und iteratives Verfahren für die Szenentexterkennung. Erstens bedeutet „autonom“, dass explizites Sprachmodellieren durch die Entkopplung des Erkenners in ein visuelles Modell und ein Sprachmodell erreicht wird, wobei der Gradientenfluss zwischen beiden Modellen blockiert wird. Zweitens wird ein neuartiges bidirektionales Cloze-Netzwerk (BCN) als Sprachmodell vorgestellt, das auf einer bidirektionalen Merkmalsdarstellung basiert. Drittens schlagen wir eine iterativ korrigierende Ausführungsweise für das Sprachmodell vor, die die Auswirkungen verrauschter Eingaben effektiv verringert. Schließlich verbessern wir ABINet++ für die Erkennung langer Texte durch die Aggregation horizontaler Merkmale mittels Einbettung von Transformer-Einheiten in eine U-Net-Architektur sowie durch die Entwicklung eines Aufmerksamkeitsmoduls, das sowohl Position als auch Inhalt berücksichtigt, um präzise Aufmerksamkeit auf Zeichenmerkmale zu lenken. ABINet++ erzielt eine state-of-the-art-Leistung sowohl auf Benchmarks für Szenentexterkennung als auch für Szenentextspotting und zeigt konsistent die Überlegenheit unseres Ansatzes in unterschiedlichen Umgebungen, insbesondere bei Bildern niedriger Qualität. Zudem belegen umfangreiche Experimente, sowohl in Englisch als auch in Chinesisch, dass ein Text-Spotter, der unsere Sprachmodellierungsstrategie integriert, sowohl in Bezug auf Genauigkeit als auch Geschwindigkeit signifikant bessere Ergebnisse erzielt als übliche auf Aufmerksamkeit basierende Erkennungssysteme.