Command Palette
Search for a command to run...
EAST: Ein effizienter und genauer Detektor für Szenentext
EAST: Ein effizienter und genauer Detektor für Szenentext
Zusammenfassung
Bisherige Ansätze zur Erkennung von Szenentexten haben bereits vielversprechende Ergebnisse auf verschiedenen Benchmarks erzielt. Dennoch erweisen sie sich in anspruchsvollen Szenarien häufig als unzureichend, selbst wenn sie mit tiefen neuronalen Netzwerken ausgestattet sind, da die Gesamtleistung durch die Wechselwirkung mehrerer Stufen und Komponenten in den jeweiligen Pipelines bestimmt wird. In dieser Arbeit stellen wir eine einfache, jedoch leistungsstarke Pipeline vor, die eine schnelle und genaue Texterkennung in natürlichen Szenen ermöglicht. Die Pipeline prognostiziert direkt Wörter oder Textzeilen beliebiger Orientierung und viereckiger Form in vollständigen Bildern, wobei unnötige Zwischenschritte – beispielsweise die Aggregation von Kandidaten oder die Aufteilung von Wörtern – entfallen und dies mit einem einzigen neuronalen Netzwerk geschieht. Die Einfachheit unserer Pipeline ermöglicht es, den Fokus stärker auf die Gestaltung von Verlustfunktionen und neuronalen Netzwerkarchitekturen zu legen. Experimente an Standard-Datensätzen wie ICDAR 2015, COCO-Text und MSRA-TD500 zeigen, dass der vorgeschlagene Algorithmus sowohl hinsichtlich Genauigkeit als auch Effizienz deutlich über den aktuellen Stand der Technik hinausgeht. Auf dem ICDAR 2015-Datensatz erreicht der vorgeschlagene Algorithmus bei einer Auflösung von 720p eine F-Score-Wert von 0,7820 bei 13,2 fps.