HyperAIHyperAI

Command Palette

Search for a command to run...

Aufmerksamkeitsbasierte Extraktion strukturierter Informationen aus Straßenszenenbildern

Zbigniew Wojna Alex Gorban Dar-Shyang Lee Kevin Murphy Qian Yu Yeqing Li Julian Ibarz

Zusammenfassung

Wir präsentieren ein neuronales Netzwerkmodell – basierend auf CNNs, RNNs und einem neuen Aufmerksamkeitsmechanismus – das eine Genauigkeit von 84,2 % auf dem anspruchsvollen Datensatz der französischen Straßenschilder (FSNS) erreicht, was deutlich besser ist als der bisherige Stand der Technik (Smith'16) mit 72,46 %. Darüber hinaus ist unsere neue Methode viel einfacher und allgemeiner als die vorherige Herangehensweise. Um die Allgemeingültigkeit unseres Modells zu demonstrieren, zeigen wir, dass es auch auf einem noch schwierigeren Datensatz aus Google Street View gut abschneidet, bei dem das Ziel besteht, Geschäftsnamen von Ladengeschäften zu extrahieren. Schließlich untersuchen wir den Kompromiss zwischen Geschwindigkeit und Genauigkeit, der durch den Einsatz von CNN-Feature-Extraktoren unterschiedlicher Tiefe entsteht. Überraschenderweise stellen wir fest, dass tiefere Modelle nicht immer besser sind (sowohl in Bezug auf Genauigkeit als auch auf Geschwindigkeit). Unser resultierendes Modell ist einfach, genau und schnell, wodurch es für verschiedene anspruchsvolle Textextraktionsprobleme im realen Leben skalierbar eingesetzt werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Aufmerksamkeitsbasierte Extraktion strukturierter Informationen aus Straßenszenenbildern | Paper | HyperAI