EAST: Ein effizienter und genauer Szene-Text-Erkennungsalgorithmus

Frühere Ansätze zur Texterkennung in Szenen haben bereits vielversprechende Ergebnisse bei verschiedenen Benchmarks erzielt. Allerdings scheitern sie oft an herausfordernden Szenarien, selbst wenn sie mit tiefen neuronalen Netzwerken ausgestattet sind, da die Gesamtleistung durch die Wechselwirkung mehrerer Stufen und Komponenten in den Pipelines bestimmt wird. In dieser Arbeit schlagen wir eine einfache, aber leistungsstarke Pipeline vor, die eine schnelle und genaue Texterkennung in natürlichen Szenen ermöglicht. Die Pipeline prognostiziert direkt Wörter oder Textzeilen beliebiger Ausrichtungen und quadratischer Formen in kompletten Bildern, wobei unnötige Zwischenschritte (z.B. Kandidatenaggregation und Wortpartitionierung) durch ein einzelnes neuronales Netzwerk eliminiert werden. Die Einfachheit unserer Pipeline ermöglicht es, sich auf die Entwicklung von Verlustfunktionen und der Architektur neuronaler Netze zu konzentrieren.Experimente mit Standarddatensätzen wie ICDAR 2015, COCO-Text und MSRA-TD500 zeigen, dass der vorgeschlagene Algorithmus sowohl hinsichtlich Genauigkeit als auch Effizienz signifikant bessere Ergebnisse als state-of-the-art-Methoden erzielt. Bei dem Datensatz ICDAR 2015 erreicht der vorgeschlagene Algorithmus einen F-Wert von 0,7820 bei einer Bildrate von 13,2 fps in 720p-Auflösung.