HyperAIHyperAI
vor 11 Tagen

Paralleler Decoder zur Kontextwahrnehmung für die Erkennung von Szenentexten

Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Chenxia Li, Yuning Du, Yu-Gang Jiang
Paralleler Decoder zur Kontextwahrnehmung für die Erkennung von Szenentexten
Abstract

Verfahren zur Erkennung von Szenentext (Scene Text Recognition, STR) haben Schwierigkeiten, hohe Genauigkeit und schnelle Inferenzgeschwindigkeit gleichzeitig zu erreichen. Autoregressive (AR)-basierte Modelle führen die Erkennung zeichenweise durch und zeichnen sich durch hohe Genauigkeit aus, sind jedoch aufgrund ihrer sequenziellen Verarbeitung langsam. Alternativ ermöglichen Modelle mit paralleler Dekodierung (Parallel Decoding, PD) die Vorhersage aller Zeichen in einem einzigen Dekodierungsschritt, was eine deutlich schnellere Inferenzgeschwindigkeit bietet, jedoch in der Regel mit einer geringeren Genauigkeit einhergeht. Wir führen zunächst eine empirische Studie zum AR-Dekodierverfahren in STR durch und entdecken, dass der AR-Dekoder nicht nur sprachliche Kontextinformationen modelliert, sondern auch eine Anleitung für die Wahrnehmung visueller Kontextinformationen liefert. Daraus leiten wir den Context Perception Parallel Decoder (CPPD) ab, der die Vorhersage der Zeichenfolge in einem einzigen PD-Schritt ermöglicht. Der CPPD integriert einen Zeichenzählmodul zur Schätzung der Häufigkeit jedes Zeichens sowie einen Zeichenreihenfolgenmodul zur Ableitung einer inhaltsfreien Lesereihenfolge und Platzhalter. Gleichzeitig ordnet die Aufgabe der Zeichenprädiktion die Platzhalter den entsprechenden Zeichen zu. Zusammen bilden diese Komponenten einen umfassenden Erkennungskontext. Wir entwickeln eine Reihe von CPPD-Modellen und integrieren die vorgeschlagenen Module auch in bestehende STR-Dekoder. Experimente an Benchmark-Datenbanken für Englisch und Chinesisch zeigen, dass die CPPD-Modelle eine hochkonkurrenzfähige Genauigkeit erreichen und dabei etwa 8-mal schneller arbeiten als ihre AR-basierten Pendants. Darüber hinaus erzielen die integrierten Modelle eine signifikante Verbesserung der Genauigkeit. Der Quellcode ist unter \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{dieser HTTPS-URL} verfügbar.

Paralleler Decoder zur Kontextwahrnehmung für die Erkennung von Szenentexten | Neueste Forschungsarbeiten | HyperAI