MANGO: Ein maskenbasiertes Aufmerksamkeits-Modell für einstufige Szenentexterkennung

Kürzlich ist die end-to-end-Szene-Text-Spotting-Technik aufgrund ihrer Vorteile hinsichtlich globaler Optimierung und hoher Wartbarkeit in praktischen Anwendungen zu einem beliebten Forschungsthema geworden. Die meisten Ansätze zielen darauf ab, verschiedene Region of Interest (RoI)-Operationen zu entwickeln, um die Erkennungskomponente und die Folgeerkennungskomponente zu einem zweistufigen Text-Spotting-Framework zu verbinden. In solchen Architekturen ist die Erkennungskomponente jedoch stark empfindlich gegenüber den Ergebnissen der Erkennung (z. B. der Kompaktheit der Textkonturen). Um dieses Problem zu lösen, schlagen wir in diesem Artikel einen neuartigen, einstufigen Text-Spotting-Framework namens MANGO (Mask AttentioN Guided One-stage text spotting) vor, bei dem Charakterfolgen direkt erkannt werden können, ohne dass RoI-Operationen erforderlich sind. Konkret wird ein positionssensitives Masken-Attention-Modul entwickelt, das Aufmerksamkeitsgewichte für jedes Text-Instanz und ihre einzelnen Zeichen generiert. Dadurch können verschiedene Text-Instanzen in einem Bild auf unterschiedliche Feature-Kanäle abgebildet werden, die anschließend als Batch von Instanz-Features gruppiert werden. Schließlich wird ein leichtgewichtiger Sequenz-Decoder eingesetzt, um die Charakterfolgen zu generieren. Es ist erwähnenswert, dass MANGO inhärent auf beliebig geformte Texte angepasst ist und end-to-end mit lediglich groben Positionsangaben (z. B. rechteckigen Bounding Boxes) und Textannotierungen trainiert werden kann. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode sowohl auf regulären als auch auf irregulären Text-Spotting-Benchmarks, nämlich ICDAR 2013, ICDAR 2015, Total-Text und SCUT-CTW1500, konkurrenzfähige sowie neue SOTA-Leistungen erzielt.