Gleitende Linienpunkte Regression für formrobuste Szene-Text-Erkennung

Traditionelle Texterkennungsmethoden konzentrieren sich hauptsächlich auf quadratische Textformen. In dieser Studie schlagen wir eine neue Methode vor, die als „sliding line point regression“ (SLPR) bezeichnet wird, um Text beliebiger Form in natürlichen Szenen zu erkennen. SLPR regressiert mehrere Punkte entlang der Kanten von Textlinien und nutzt diese Punkte anschließend, um die Umrisse des Textes zu zeichnen. Die vorgeschlagene SLPR-Methode kann auf verschiedene Objekterkennungsarchitekturen wie Faster R-CNN und R-FCN angepasst werden. Insbesondere generieren wir zunächst das kleinste rechteckige Feld, das den Text einschließt, mithilfe eines Region Proposal Networks (RPN). Anschließend regressieren wir die Punkte entlang der Kanten des Textes durch vertikale und horizontale Schieflinien isometrisch. Um die Informationen vollständig zu nutzen und Redundanzen zu reduzieren, berechnen wir die x-Koordinate oder y-Koordinate des Zielpunkts anhand der Position des rechteckigen Feldes und regressieren nur die verbleibende y-Koordinate oder x-Koordinate. Dadurch können wir nicht nur die Systemparameter reduzieren, sondern auch die Punkte kontrollieren, sodass regelmäßigere Polygone entstehen. Unser Ansatz erzielte wettbewerbsfähige Ergebnisse sowohl im traditionellen ICDAR2015 Incidental Scene Text Benchmark als auch im Kurventext-Erkennungsdatensatz CTW1500.