HyperAIHyperAI
vor 11 Tagen

Neubewertung der Klassifizierungsperspektive bei der Szenentexterkennung

Hongxiang Cai, Jun Sun, Yichao Xiong
Neubewertung der Klassifizierungsperspektive bei der Szenentexterkennung
Abstract

Die gängigen Ansätze zur Erkennung von Szenentexten basieren entweder auf einer sequenz-zu-Sequenz- (seq2seq) oder einer Segmentierungsarchitektur. Der erste Ansatz besteht jedoch aus zahlreichen Komponenten, was die Implementierung und Bereitstellung komplex macht, während der zweite Ansatz Annotationen auf Zeichen-Ebene erfordert, die kostspielig sind. In diesem Artikel greifen wir die Klassifizierungs-Perspektive erneut auf, bei der die Erkennung von Szenentexten als ein Bildklassifizierungsproblem modelliert wird. Die Klassifizierungs-Perspektive verfügt über eine einfache Arbeitsweise und benötigt lediglich Annotationen auf Wort-Ebene. Wir revitalisieren diese Perspektive durch die Entwicklung eines Szenentexterkennungsmodells namens CSTR (Classification Perspective for Scene Text Recognition), das die Leistungsfähigkeit von Methoden aus anderen Perspektiven erreicht. Das CSTR-Modell besteht aus zwei Komponenten: CPNet (Classification Perspective Network) und SPPN (Separated Convolution with Global Average Pooling Prediction Network). CSTR ist so einfach wie ein klassisches Bildklassifizierungsmodell wie ResNet \cite{he2016deep}, was die Implementierung und Bereitstellung erheblich vereinfacht. Wir belegen die Wirksamkeit der Klassifizierungs-Perspektive bei der Erkennung von Szenentexten durch umfangreiche Experimente. Darüber hinaus erreicht CSTR nahezu state-of-the-art Ergebnisse auf sechs öffentlichen Benchmarks, sowohl für regulären als auch für irregulären Text. Der Quellcode wird unter https://github.com/Media-Smart/vedastr verfügbar sein.

Neubewertung der Klassifizierungsperspektive bei der Szenentexterkennung | Neueste Forschungsarbeiten | HyperAI