Command Palette
Search for a command to run...
Erkennung ausgerichteten Textes in natürlichen Bildern durch Verknüpfung von Segmenten
Erkennung ausgerichteten Textes in natürlichen Bildern durch Verknüpfung von Segmenten
Shi Baoguang Bai Xiang Belongie Serge
Zusammenfassung
Die meisten aktuellen Methoden zur Textdetektion sind auf horizontales lateinisches Textmaterial spezialisiert und zu langsam für Anwendungen in Echtzeit. Wir stellen SegLink vor, eine Methode zur detektion orientierter Texte. Der zentrale Ansatz besteht darin, Text in zwei lokal detektierbare Elemente zu zerlegen: Segmente und Verbindungen (Links). Ein Segment ist ein orientierter Rechteckbereich, der einen Teil eines Wortes oder einer Textzeile abdeckt; eine Verbindung verbindet zwei benachbarte Segmente und signalisiert, dass diese zum selben Wort oder zur selben Textzeile gehören. Beide Elemente werden dicht bei mehreren Skalen durch ein end-to-end trainiertes, vollständig konvolutionales neuronales Netzwerk erkannt. Die endgültigen Detektionen ergeben sich durch die Kombination von Segmenten, die durch Verbindungen miteinander verbunden sind. Im Vergleich zu früheren Methoden verbessert SegLink sowohl in Bezug auf Genauigkeit, Geschwindigkeit als auch Trainierbarkeit. Auf dem standardisierten ICDAR 2015 Incidental (Challenge 4)-Benchmark erreicht SegLink eine F-Maß-Genauigkeit von 75,0 %, wobei der vorherige beste Wert deutlich übertroffen wird. Die Methode läuft mit über 20 FPS bei Bildgrößen von 512×512 Pixeln. Darüber hinaus kann SegLink, ohne Anpassungen vorzunehmen, auch lange Zeilen nicht-lateinischen Textes, wie beispielsweise Chinesisch, erfolgreich detektieren.