HyperAIHyperAI
vor 8 Tagen

Text Spotting Transformers

Xiang Zhang, Yongwen Su, Subarna Tripathi, Zhuowen Tu
Text Spotting Transformers
Abstract

In diesem Artikel stellen wir TExt Spotting TRansformers (TESTR) vor, einen generischen end-to-end-Textspotting-Framework basierend auf Transformers zur Textdetektion und -erkenntnis in natürlichen Szenen. TESTR baut auf einem einzigen Encoder und zwei Dekodern auf, um gemeinsam die Regression der Kontrollpunkte von Textboxen und die Zeichenerkennung zu bewältigen. Im Gegensatz zu den meisten existierenden Ansätzen verzichtet unsere Methode auf Region-of-Interest-Operationen und heuristisch gesteuerte Nachverarbeitungsschritte; TESTR erweist sich insbesondere bei der Verarbeitung gekrümmter Textboxen als besonders effektiv, da hier besondere Berücksichtigung der Anpassung traditioneller Rechteckrepräsentationen erforderlich ist. Wir zeigen unsere kanonische Darstellung von Kontrollpunkten, die sowohl für Textinstanzen mit Bezier-Kurven- als auch mit Polygonannotationen geeignet ist. Zudem entwickeln wir einen Prozess zur polygonalen Detektion, der durch eine Bounding-Box geleitet wird (box-to-polygon). Experimente an gekrümmten und beliebig geformten Datensätzen belegen die state-of-the-art-Leistungsfähigkeit des vorgeschlagenen TESTR-Algorithmus.