Command Palette
Search for a command to run...
Fusionierte Textsegmentierungsnetzwerke für die Erkennung mehrgerichteter Szenentexte
Fusionierte Textsegmentierungsnetzwerke für die Erkennung mehrgerichteter Szenentexte
Zusammenfassung
In diesem Artikel stellen wir einen neuartigen end-to-end-Framework für die Erkennung mehrorientierter Szenentexte aus der Perspektive einer instanzbewussten semantischen Segmentierung vor. Wir führen Fused Text Segmentation Networks ein, die mehrstufige Merkmale während des Merkmalsextrahierens kombinieren, da Textinstanzen im Vergleich zu allgemeinen Objekten eine feinere Merkmalsdarstellung erfordern können. Unser Ansatz erkennt und segmentiert Textinstanzen gleichzeitig und gemeinsam und nutzt dabei die Vorteile sowohl der semantischen Segmentierung als auch der objektdetektionsbasierten Region-Proposal-Methoden. Ohne zusätzliche Verarbeitungspipelines erreicht unsere Methode auf den aktuellen Benchmarks für mehrorientierte Szenentexterkennung, ICDAR2015 Incidental Scene Text und MSRA-TD500, jeweils eine H-mean-Wert von 84,1 % bzw. 82,0 %. Zudem präsentieren wir eine Baseline auf Total-Text, die gekrümmte Texte enthält, was die Wirksamkeit des vorgeschlagenen Ansatzes unterstreicht.