vor 2 Monaten

Aufmerksamkeitsbasierte Extraktion strukturierter Informationen aus Straßenszenenbildern

Zbigniew Wojna; Alex Gorban; Dar-Shyang Lee; Kevin Murphy; Qian Yu; Yeqing Li; Julian Ibarz

Abstract

Wir präsentieren ein neuronales Netzwerkmodell – basierend auf CNNs, RNNs und einem neuen Aufmerksamkeitsmechanismus – das eine Genauigkeit von 84,2 % auf dem anspruchsvollen Datensatz der französischen Straßenschilder (FSNS) erreicht, was deutlich besser ist als der bisherige Stand der Technik (Smith'16) mit 72,46 %. Darüber hinaus ist unsere neue Methode viel einfacher und allgemeiner als die vorherige Herangehensweise. Um die Allgemeingültigkeit unseres Modells zu demonstrieren, zeigen wir, dass es auch auf einem noch schwierigeren Datensatz aus Google Street View gut abschneidet, bei dem das Ziel besteht, Geschäftsnamen von Ladengeschäften zu extrahieren. Schließlich untersuchen wir den Kompromiss zwischen Geschwindigkeit und Genauigkeit, der durch den Einsatz von CNN-Feature-Extraktoren unterschiedlicher Tiefe entsteht. Überraschenderweise stellen wir fest, dass tiefere Modelle nicht immer besser sind (sowohl in Bezug auf Genauigkeit als auch auf Geschwindigkeit). Unser resultierendes Modell ist einfach, genau und schnell, wodurch es für verschiedene anspruchsvolle Textextraktionsprobleme im realen Leben skalierbar eingesetzt werden kann.