Command Palette
Search for a command to run...
Sliding Line Point Regression für formrobuste Erkennung von Szenentexten
Sliding Line Point Regression für formrobuste Erkennung von Szenentexten
Zhu Yixing Du Jun
Zusammenfassung
Traditionelle Methoden zur Textdetektion konzentrieren sich hauptsächlich auf viereckförmige Textobjekte. In dieser Studie stellen wir eine neuartige Methode namens Sliding Line Point Regression (SLPR) vor, um beliebig geformten Text in natürlichen Szenen zu detektieren. SLPR schätzt mehrere Punkte entlang der Randlinien eines Textzeilenabschnitts und nutzt diese Punkte anschließend, um die Konturen des Textes zu rekonstruieren. Die vorgeschlagene SLPR-Methodik lässt sich nahtlos in verschiedene Architekturen für Objektdetektion integrieren, beispielsweise Faster R-CNN und R-FCN. Konkret generieren wir zunächst über ein Region Proposal Network (RPN) das kleinste rechteckige Umfangsbox, das den Text enthält, und regressieren anschließend die Randpunkte des Textes mittels vertikal und horizontal gleitender Linien. Um die Nutzung von Informationen zu maximieren und Redundanz zu minimieren, berechnen wir entweder die x- oder y-Koordinate eines Zielpunkts basierend auf der Position der Umfangsbox und regressieren lediglich die verbleibende Koordinate (y- oder x-Koordinate). Dadurch gelingt es uns, nicht nur die Anzahl der Systemparameter zu reduzieren, sondern auch die Entstehung von übermäßig regelmäßigen Polygonen zu unterbinden. Unser Ansatz erzielt wettbewerbsfähige Ergebnisse sowohl auf dem klassischen ICDAR2015 Incidental Scene Text Benchmark als auch auf dem Datensatz für gekrümmten Text, CTW1500.