HyperAIHyperAI
vor 11 Tagen

TextScanner: Zeichen in geordneter Reihenfolge lesen für robuste Szenentexterkennung

Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai, Cong Yao
TextScanner: Zeichen in geordneter Reihenfolge lesen für robuste Szenentexterkennung
Abstract

Getrieben durch Deep Learning und die große Menge an Daten hat die Erkennung von Text in Szenen in den letzten Jahren rasant voranschreiten können. Früher dominierten Methoden basierend auf RNN-Attention dieses Gebiet, leiden jedoch unter dem Problem des sogenannten Attention Drift in bestimmten Situationen. In jüngster Zeit haben semantische Segmentierungsbasierte Algorithmen sich als effektiv erwiesen, um Texte unterschiedlicher Form (horizontal, orientiert, gekrümmt) zu erkennen. Diese Ansätze können jedoch falsche Zeichen erzeugen oder echte Zeichen verpassen, da sie stark von einem Schwellenwertverfahren auf Segmentierungskarten abhängen. Um diese Herausforderungen anzugehen, schlagen wir in diesem Beitrag einen alternativen Ansatz namens TextScanner für die Erkennung von Szenentext vor. TextScanner zeichnet sich durch drei Merkmale aus: (1) Grundsätzlich gehört er zur Familie der semantischen Segmentierung, da er pixelgenaue, mehrkanalige Segmentierungskarten für Zeichenklasse, Position und Reihenfolge generiert; (2) Gleichzeitig, ähnlich wie RNN-Attention-basierte Methoden, nutzt er ebenfalls ein RNN zur Modellierung von Kontext; (3) Darüber hinaus führt er parallele Vorhersagen für Position und Klasse von Zeichen durch und stellt sicher, dass die Zeichen in korrekter Reihenfolge transkribiert werden. Experimente auf Standard-Benchmark-Datensätzen zeigen, dass TextScanner die bisher besten Methoden übertrifft. Zudem demonstriert TextScanner seine Überlegenheit bei der Erkennung besonders anspruchsvoller Texte wie chinesischer Transkriptionen und bei der präzisen Ausrichtung mit den Zielzeichen.

TextScanner: Zeichen in geordneter Reihenfolge lesen für robuste Szenentexterkennung | Neueste Forschungsarbeiten | HyperAI