FAST: Schneller beliebig geformter Textdetektor mit minimalistischer Kernel-Darstellung

Wir stellen einen genauen und effizienten Rahmen für die Erkennung von Szenentext vor, der als FAST („faster arbitrarily-shaped text detector“) bezeichnet wird. Im Gegensatz zu jüngeren fortschrittlichen Textdetektoren, die komplizierte Nachverarbeitungsschritte und handgefertigte Netzarchitekturen verwenden – was zu einer geringen Inferenzgeschwindigkeit führt – verfolgt FAST zwei neue Designansätze. (1) Wir entwickeln eine minimalistische Kernel-Repräsentation (mit lediglich einem Kanal Ausgabe), um Text beliebiger Form zu modellieren, sowie eine GPU-parallele Nachverarbeitung, die Textzeilen effizient zusammensetzt, wobei nur ein vernachlässigbarer zeitlicher Overhead entsteht. (2) Wir führen eine automatische Suche nach Netzarchitekturen durch, die speziell für die Texterkennung optimiert sind, wodurch leistungsfähigere Merkmale erzielt werden als bei den meisten Netzwerken, die für die Bildklassifikation optimiert wurden. Durch diese beiden Innovationen erreicht FAST ein hervorragendes Gleichgewicht zwischen Genauigkeit und Effizienz auf mehreren anspruchsvollen Datensätzen, darunter Total Text, CTW1500, ICDAR 2015 und MSRA-TD500. Beispielsweise erzielt FAST-T auf Total-Text eine F-Maßnahme von 81,6 % bei 152 FPS, wodurch die bisher schnellste Methode um 1,7 Punkte in der Genauigkeit und um 70 FPS in der Geschwindigkeit übertroffen wird. Mit TensorRT-Optimierung kann die Inferenzgeschwindigkeit zudem auf über 600 FPS beschleunigt werden. Der Quellcode und die Modelle werden unter https://github.com/czczup/FAST veröffentlicht.