HyperAIHyperAI
vor 2 Monaten

Formrobuste Texterkennung mit Progressiver Skalenerweiterungsnetzwerk

Li, Xiang ; Wang, Wenhai ; Hou, Wenbo ; Liu, Ruo-Ze ; Lu, Tong ; Yang, Jian
Formrobuste Texterkennung mit Progressiver Skalenerweiterungsnetzwerk
Abstract

Die Herausforderungen der formrobusten Texterkennung liegen in zwei Aspekten: 1) Die meisten existierenden Detektoren, die auf rechteckigen Begrenzungsboxen basieren, haben Schwierigkeiten, Texte mit beliebigen Formen zu lokalisieren, die sich nicht perfekt in ein Rechteck einfügen lassen; 2) Die meisten pixelbasierten Segmentierungsdetektoren können Textinstanzen, die sich sehr nahe begegnen, möglicherweise nicht voneinander trennen. Um diese Probleme zu lösen, schlagen wir ein neues Progressives Skalenexpandierungsnetzwerk (PSENet) vor, das als segmentationsbasierter Detektor konzipiert ist und für jede Textinstanz mehrere Vorhersagen durchführt. Diese Vorhersagen entsprechen verschiedenen 'Kernen', die durch das Verkleinern der ursprünglichen Textinstanz auf verschiedene Skalen erzeugt werden. Folglich kann die endgültige Erkennung durch unseren progressiven Skalenexpandierungsalgorithmus durchgeführt werden, der die Kernen mit den kleinsten Skalen schrittweise zu den Textinstanzen mit maximalen und vollständigen Formen erweitert. Aufgrund der großen geometrischen Abstände zwischen diesen minimalen Kernen ist unsere Methode effektiv, um benachbarte Textinstanzen zu unterscheiden und ist robust gegenüber beliebigen Formen. Die Stand-der-Technik-Ergebnisse auf den Benchmarks ICDAR 2015 und ICDAR 2017 MLT bestätigen zudem die große Effektivität von PSENet. Bemerkenswerterweise übertrifft PSENet den bisher besten Rekord im Datensatz für gekrümmte Texte SCUT-CTW1500 um absolut 6,37 %. Der Quellcode wird unter https://github.com/whai362/PSENet zur Verfügung gestellt.

Formrobuste Texterkennung mit Progressiver Skalenerweiterungsnetzwerk | Neueste Forschungsarbeiten | HyperAI