HyperAIHyperAI
vor 2 Monaten

Lesen von Text in der Wildnis mit Faltungsneuronalen Netzen

Max Jaderberg; Karen Simonyan; Andrea Vedaldi; Andrew Zisserman
Lesen von Text in der Wildnis mit Faltungsneuronalen Netzen
Abstract

In dieser Arbeit präsentieren wir ein End-to-End-System zur Texterkennung – das Lokalisieren und Erkennen von Text in natürlichen Szenebildern – sowie zur textbasierten Bildrecherche. Dieses System basiert auf einem Regionenvorschlagsmechanismus für die Detektion und tiefen Faltungsneuralnetzen (Convolutional Neural Networks) für die Erkennung. Unser Pipeline nutzt eine neuartige Kombination ergänzender Vorschlaggenerierungstechniken, um eine hohe Recall-Rate zu gewährleisten, und eine schnelle nachfolgende Filterstufe, um die Precision zu verbessern. Für die Erkennung und Rangfolge der Vorschläge trainieren wir sehr große Faltungsneuralnetze, um Wörter in der gesamten Vorschlagsregion gleichzeitig zu erkennen, was von den früheren Systemen auf Basis von Zeichenklassifizierern abweicht. Diese Netze werden ausschließlich mit Daten trainiert, die durch einen synthetischen Textgenerierungsmechanismus erzeugt wurden, sodass keine menschlich beschrifteten Daten erforderlich sind.Durch die Analyse der einzelnen Stufen unserer Pipeline zeigen wir Stand-des-Wissens-Leistungen in jedem Bereich. Wir führen sorgfältige Experimente an einer Reihe standardisierter End-to-End-Texterkennungsbenchmarks und textbasierter Bildretriedatasets durch, wobei wir erhebliche Verbesserungen gegenüber allen bisherigen Methoden demonstrieren. Schließlich demonstrieren wir eine praktische Anwendung unseres Texterkennungssystems, das es ermöglicht, Tausende von Stunden Nachrichtenaufnahmen mittels einer Textanfrage sofort zu durchsuchen.

Lesen von Text in der Wildnis mit Faltungsneuronalen Netzen | Neueste Forschungsarbeiten | HyperAI