Echtzeit-Szenentexterkennung mit differenzierbarer Binarisierung

In jüngster Zeit sind segmentationsbasierte Methoden in der Szenentexterkennung sehr populär geworden, da die Segmentierungsergebnisse Texte verschiedener Formen – beispielsweise gekrümmte Texte – genauer beschreiben können. Allerdings ist die Nachverarbeitung durch Binarisierung für segmentationsbasierte Erkennungssysteme unerlässlich, da sie die von einer Segmentierungsmethode erzeugten Wahrscheinlichkeitskarten in Textgrenzfelder bzw. -regionen umwandelt. In diesem Artikel stellen wir ein Modul namens Differentiable Binarization (DB) vor, das den Binarisierungsprozess innerhalb eines Segmentierungsnetzwerks durchführen kann. Durch die Optimierung gemeinsam mit einem DB-Modul kann ein Segmentierungsnetzwerk die Schwellenwerte für die Binarisierung adaptiv anpassen, was nicht nur die Nachverarbeitung vereinfacht, sondern auch die Leistungsfähigkeit der Texterkennung verbessert. Auf Basis eines einfachen Segmentierungsnetzwerks validieren wir die Leistungssteigerung durch DB an fünf Benchmark-Datensätzen und erreichen dabei konsistent Ergebnisse auf dem Stand der Technik sowohl hinsichtlich der Erkennungsgenauigkeit als auch der Geschwindigkeit. Insbesondere zeigt sich bei Verwendung eines leichtgewichtigen Backbone-Modells eine signifikante Leistungssteigerung durch DB, sodass sich ein ideales Gleichgewicht zwischen Erkennungsgenauigkeit und Effizienz finden lässt. Konkret erreicht unser Detektor mit einem Backbone aus ResNet-18 auf dem MSRA-TD500-Datensatz eine F-Maß-Genauigkeit von 82,8 % bei einer Geschwindigkeit von 62 FPS. Der Quellcode ist verfügbar unter: https://github.com/MhLiao/DB