HyperAIHyperAI
vor 2 Monaten

TextSnake: Eine flexible Darstellung zur Erkennung von Text in beliebigen Formen

Long, Shangbang ; Ruan, Jiaqiang ; Zhang, Wenjie ; He, Xin ; Wu, Wenhao ; Yao, Cong
TextSnake: Eine flexible Darstellung zur Erkennung von Text in beliebigen Formen
Abstract

Getrieben von tiefen neuronalen Netzen und großen Datensätzen haben Methoden zur Erkennung von Szene-Text in den letzten Jahren erhebliche Fortschritte gemacht und die Leistungsrekorde auf verschiedenen Standard-Benchmarks kontinuierlich verbessert. Allerdings können bestehende Methoden, die auf begrenzten Repräsentationen (achsenparallele Rechtecke, gedrehte Rechtecke oder Vierecke) basieren, um Text zu beschreiben, bei der Verarbeitung viel freierer Textinstanzen wie gekrümmtem Text, der in realen Szenarien tatsächlich sehr häufig vorkommt, möglicherweise versagen. Um dieses Problem zu lösen, schlagen wir eine flexiblere Repräsentation für Szene-Text vor, die als TextSnake bezeichnet wird und in der Lage ist, Textinstanzen in horizontaler, orientierter und gekrümmter Form effektiv darzustellen. In TextSnake wird eine Textinstanz als eine Folge geordneter, sich überlappender Scheiben entlang symmetrischer Achsen beschrieben, wobei jeder Scheibe ein potentiell variabler Radius und eine Orientierung zugeordnet sind. Diese geometrischen Attribute werden durch ein Fully Convolutional Network (FCN)-Modell geschätzt. In Experimenten erreicht der Textdetektor basierend auf TextSnake Stand-of-the-Art- oder vergleichbare Leistungen auf Total-Text und SCUT-CTW1500, zwei neu veröffentlichten Benchmarks mit besonderem Fokus auf gekrümmten Text in natürlichen Bildern, sowie auf den weit verbreiteten Datensätzen ICDAR 2015 und MSRA-TD500. Insbesondere übertreffen die Ergebnisse von TextSnake das Baseline-Modell auf Total-Text um mehr als 40% im F-Maß.

TextSnake: Eine flexible Darstellung zur Erkennung von Text in beliebigen Formen | Neueste Forschungsarbeiten | HyperAI