Echtzeit-Szenentexterkennung mit differentiabler Binarisierung und adaptiver Skalenfusion

In jüngster Zeit haben segmentationsbasierte Ansätze zur Erkennung von Szenentext erhebliche Aufmerksamkeit in der Forschungsgemeinschaft erhalten, da sie im Vergleich zu anderen Methoden bei der Erkennung von Textinstanzen beliebiger Formen und extremen Seitenverhältnissen deutliche Vorteile aufweisen, die auf ihrer pixelgenauen Beschreibung beruhen. Allerdings sind die meisten bestehenden segmentationsbasierten Ansätze durch ihre komplexen Nachverarbeitungsalgorithmen sowie die Skalenrobustheit ihrer Segmentierungsmodelle eingeschränkt. Die Nachverarbeitungsalgorithmen sind nicht nur unabhängig von der Modelloptimierung, sondern auch zeitaufwendig, während die Skalenrobustheit üblicherweise durch eine direkte Fusion mehrskaliger Merkmalskarten gestärkt wird. In diesem Artikel stellen wir ein differentiable Binarization (DB)-Modul vor, das den Binarisierungsprozess – einen der zentralen Schritte im Nachverarbeitungsprozess – direkt in das Segmentierungsnetzwerk integriert. Durch die gleichzeitige Optimierung des vorgeschlagenen DB-Moduls kann das Segmentierungsnetzwerk präzisere Ergebnisse liefern, was die Genauigkeit der Texterkennung durch eine einfache und effiziente Pipeline verbessert. Darüber hinaus wird ein effizientes adaptives Skalenfusion (Adaptive Scale Fusion, ASF)-Modul vorgestellt, das die Skalenrobustheit durch adaptives Fusionsverfahren von Merkmalen unterschiedlicher Skalen erhöht. Durch die Integration des vorgeschlagenen DB- und ASF-Moduls in das Segmentierungsnetzwerk erreicht unser vorgeschlagener Szenentextdetektor konsistent führende Ergebnisse hinsichtlich sowohl Genauigkeit als auch Geschwindigkeit auf fünf etablierten Benchmark-Datensätzen.