Ein Einsschuss-Textdetektor für beliebig geformte Texte basierend auf kontextbasiertem Multitask-Lernen

Die Erkennung von Szene-Text in beliebigen Formen war in den letzten Jahren eine herausfordernde Aufgabe. In dieser Arbeit schlagen wir einen neuen segmentierungsbasierten Textdetektor vor, nämlich SAST, der ein kontextbasiertes Mehrfachaufgaben-Lernframework auf Basis eines Fully Convolutional Networks (FCN) verwendet, um verschiedene geometrische Eigenschaften für die Rekonstruktion polygonaler Darstellungen von Textregionen zu erlernen. Berücksichtigend die sequentiellen Merkmale von Text wird ein Kontext-Aufmerksamkeitsblock eingeführt, um langfristige Abhängigkeiten der Pixelinformationen zu erfassen und so eine zuverlässigere Segmentierung zu erreichen. Im Nachbearbeitungsprozess wird eine Methode zur Zuordnung von Punkten zu Quadraten vorgeschlagen, um Pixel in Textinstanzen durch die Integration sowohl hochstufiger Objektkenntnisse als auch niedrigstufiger Pixelinformationen in einem Schritt zusammenzufassen. Darüber hinaus kann die polygonale Darstellung von Text beliebiger Form mit den vorgeschlagenen geometrischen Eigenschaften viel effektiver extrahiert werden. Experimente auf mehreren Benchmarks, einschließlich ICDAR2015, ICDAR2017-MLT, SCUT-CTW1500 und Total-Text, zeigen, dass SAST in Bezug auf Genauigkeit bessere oder vergleichbare Leistungen erzielt. Des Weiteren läuft der vorgeschlagene Algorithmus bei 27,63 FPS auf SCUT-CTW1500 mit einem H-Mittelwert von 81,0 % auf einer einzelnen NVIDIA Titan Xp-Grafikkarte und übertrifft damit die meisten existierenden segmentierungsbasierten Methoden.