Omnidirektionale Szene-Text-Erkennung mit sequenzfreier Box-Diskretisierung

Szene-Text im Freien wird häufig mit hohen Variantencharakteristiken präsentiert. Die Verwendung von quadratischen Begrenzungsrahmen zur Lokalisierung von Textinstanzen ist für Detektionsmethoden fast unerlässlich. Allerdings zeigen jüngste Forschungen, dass die Einführung von quadratischen Begrenzungsrahmen für die Szene-Text-Detektion ein Problem der Etikettverwirrung mit sich bringen kann, das leicht übersehen wird und die Detektionsleistung erheblich beeinträchtigen kann. Um dieses Problem zu lösen, schlagen wir in dieser Arbeit eine neue Methode vor, die als sequenzfreie Boxdiskretisierung (Sequential-free Box Discretization, SBD) bezeichnet wird. Dabei wird der Begrenzungsrahmen in Schlüsselkanten (Key Edges, KE) diskretisiert, was effektivere Methoden zur Verbesserung der Detektionsleistung ermöglicht. Experimente zeigten, dass die vorgeschlagene Methode in vielen gängigen Benchmarks für Szene-Text-Detektion, einschließlich ICDAR 2015, MLT und MSRA-TD500, den aktuellen Stand der Technik übertreffen kann. Eine Abstraktstudie ergab zudem, dass die einfache Integration der SBD in den Mask R-CNN-Framework die Detektionsleistung erheblich verbessert. Darüber hinaus zeigte ein Experiment auf dem allgemeinen Objektdatensatz HRSC2016 (mehrfach ausgerichtete Schiffe), dass unsere Methode den aktuellen Stand der Technik um einen großen Vorsprung übertreffen kann und damit ihre leistungsstarke Generalisierungsfähigkeit demonstriert. Quellcode: https://github.com/Yuliang-Liu/Box_Discretization_Network.