HyperAIHyperAI
vor 8 Tagen

SwinTextSpotter: Scene Text Spotting durch eine verbesserte Synergie zwischen Textdetektion und Texterkennung

Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
SwinTextSpotter: Scene Text Spotting durch eine verbesserte Synergie zwischen Textdetektion und Texterkennung
Abstract

End-to-End-Szenentext-Spotting hat in den letzten Jahren erhebliche Aufmerksamkeit auf sich gezogen, bedingt durch den Erfolg bei der Ausnutzung der inhärenten Synergie zwischen Szenentext-Detektion und -Erkennung. Allerdings integrieren aktuelle State-of-the-Art-Methoden beide Aufgaben häufig lediglich durch gemeinsame Nutzung des Backbone-Netzwerks, wodurch die direkte Nutzung der Merkmalsinteraktion zwischen den beiden Aufgaben nicht ausgenutzt wird. In diesem Artikel stellen wir einen neuen end-to-end-Szenentext-Spotting-Framework namens SwinTextSpotter vor. Mit einem Transformer-Encoder mit dynamischem Kopf als Detektor vereinigen wir die beiden Aufgaben durch eine neuartige Erkennungskonvertierungsmechanik, die die Textlokalisierung explizit über die Erkennungsverlustfunktion leitet. Die einfache Architektur führt zu einem kompakten Framework, das weder zusätzliche Korrekturmodule noch zeichenbasierte Annotationen für beliebig geformte Texte erfordert. Qualitative und quantitative Experimente auf mehrsprachigen Datensätzen mit mehrfach orientierten Texten (RoIC13 und ICDAR 2015), beliebig geformten Texten (Total-Text und CTW1500) sowie mehrsprachigen Datensätzen (ReCTS (Chinesisch) und VinText (Vietnamesisch)) zeigen, dass SwinTextSpotter bestehende Methoden erheblich übertrifft. Der Quellcode ist unter https://github.com/mxin262/SwinTextSpotter verfügbar.

SwinTextSpotter: Scene Text Spotting durch eine verbesserte Synergie zwischen Textdetektion und Texterkennung | Neueste Forschungsarbeiten | HyperAI