MixNet: Bemühung um eine genaue Erkennung herausfordernder Szenentexte in der Wildnis

Die Erkennung kleiner Textinstanzen in natürlichen Szenen ist besonders herausfordernd, da irreguläre Positionen und ungünstige Beleuchtungsbedingungen häufig zu Fehlern bei der Erkennung führen. Wir präsentieren MixNet, eine hybride Architektur, die die Stärken von CNNs und Transformers vereint und in der Lage ist, kleine Texte aus anspruchsvollen natürlichen Szenen präzise zu detektieren, unabhängig von Orientierung, Schriftstil und Beleuchtungsbedingungen. MixNet integriert zwei zentrale Module: (1) das Feature Shuffle Network (FSNet) als Backbone und (2) den Central Transformer Block (CTBlock), der die eindimensionale Mannigfaltigkeitsbeschränkung von Szenentexten ausnutzt. Zunächst führen wir eine neuartige Feature-Shuffle-Strategie im FSNet ein, um den Austausch von Merkmalen über mehrere Skalen zu ermöglichen und hochauflösende Merkmale zu generieren, die jenen von gängigen Architekturen wie ResNet und HRNet überlegen sind. Der FSNet-Backbone erreicht erhebliche Verbesserungen gegenüber zahlreichen bestehenden Ansätzen zur Texterkennung, darunter PAN, DB und FAST. Anschließend entwerfen wir einen ergänzenden CTBlock, der auf zentrale Linien basierende Merkmale nutzt, die der Mittellinie (medial axis) von Textregionen ähneln, und zeigen, dass er in anspruchsvollen Fällen, insbesondere bei eng beieinanderliegenden kleinen Texten, die Leistung von konturbasierten Ansätzen übertrifft. Ausführliche experimentelle Ergebnisse belegen, dass MixNet, das FSNet mit CTBlock kombiniert, state-of-the-art Ergebnisse auf mehreren Szenentext-Erkennungs-Datensätzen erzielt.