HyperAIHyperAI
vor 2 Monaten

Orientierte Texterkennung in natürlichen Bildern durch Verknüpfung von Segmenten

Shi, Baoguang ; Bai, Xiang ; Belongie, Serge
Orientierte Texterkennung in natürlichen Bildern durch Verknüpfung von Segmenten
Abstract

Die meisten modernsten Texterkennungsmethoden sind auf horizontale lateinische Schrift spezialisiert und nicht schnell genug für Echtzeit-Anwendungen. Wir stellen Segment Linking (SegLink) vor, eine Methode zur Erkennung von orientierter Schrift. Das Kernkonzept besteht darin, Text in zwei lokal erkennbare Elemente zu zerlegen, nämlich Segmente und Links. Ein Segment ist ein orientiertes Rechteck, das einen Teil eines Wortes oder einer Textzeile abdeckt; ein Link verbindet zwei benachbarte Segmente und zeigt an, dass sie demselben Wort oder der selben Textzeile angehören. Beide Elemente werden durch ein von Anfang bis Ende trainiertes, vollständig konvolutionsbasiertes neuronales Netzwerk dicht auf mehreren Skalen erkannt. Die endgültigen Erkennungsergebnisse werden durch die Kombination von durch Links verbundenen Segmenten erzeugt. Im Vergleich zu früheren Methoden verbessert SegLink die Genauigkeit, Geschwindigkeit und den Trainingsaufwand erheblich. Es erreicht einen F-Wert von 75,0 % im Standard-ICDAR 2015 Incidental (Challenge 4)-Benchmark, was deutlich besser ist als der bisher beste Wert. Auf Bildern mit einer Auflösung von 512x512 Pixeln läuft es mit über 20 FPS. Darüber hinaus kann SegLink ohne Modifikation lange Zeilen nicht-lateinischer Schriften wie Chinesisch erkennen.