Effiziente und genaue Erkennung beliebig geformter Texte mit Pixel-Aggregation-Netzwerk

Die Erkennung von Szene-Texten, ein wichtiger Schritt in Systemen zur Lesung von Szene-Texten, hat mit der Entwicklung von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) rasche Fortschritte gemacht. Dennoch bestehen zwei Hauptprobleme, die ihre Anwendung in realen Szenarien behindern. Das erste Problem ist das Spannungsfeld zwischen Geschwindigkeit und Genauigkeit. Das zweite Problem besteht darin, beliebig geformte Textinstanzen zu modellieren. Kürzlich wurden einige Methoden vorgeschlagen, um die Erkennung beliebig geformter Texte zu verbessern, aber diese berücksichtigen selten die Geschwindigkeit des gesamten Pipelines, was sie in praktischen Anwendungen möglicherweise unzureichend macht.In dieser Arbeit schlagen wir ein effizientes und genaues Verfahren zur Erkennung beliebig geformter Texte vor, das als Pixel-Aggregation-Netzwerk (Pixel Aggregation Network, PAN) bezeichnet wird. Dieses Netzwerk verfügt über einen Segmentierungshead mit geringem Rechenaufwand und eine lernfähige Nachbearbeitung. Im Detail besteht der Segmentierungshead aus einem Merkmalspyramidenverstärkungsmodul (Feature Pyramid Enhancement Module, FPEM) und einem Merkmalsfusionmodul (Feature Fusion Module, FFM). Das FPEM ist ein kaskadierbares U-förmiges Modul, das mehrstufige Informationen bereitstellt, um eine bessere Segmentierung zu ermöglichen. Das FFM kann die durch FPEMs verschiedener Tiefen bereitgestellten Merkmale in ein endgültiges Merkmalsprofil für die Segmentierung zusammenführen. Die lernfähige Nachbearbeitung wird durch Pixel-Aggregation (PA) implementiert, die Textpixel mittels vorhergesagter Ähnlichkeitsvektoren präzise aggregieren kann.Experimente auf mehreren Standard-Benchmarks bestätigen die Überlegenheit des vorgeschlagenen PAN. Es sei erwähnt, dass unsere Methode bei 84,2 Bildern pro Sekunde (FPS) einen wettbewerbsfähigen F-Wert von 79,9 % auf dem CTW1500-Datensatz erzielen kann.