Neubewertung der Klassifizierungsperspektive bei der Szenentexterkennung

Die gängigen Ansätze zur Erkennung von Szenentexten basieren entweder auf einer sequenz-zu-Sequenz- (seq2seq) oder einer Segmentierungsarchitektur. Der erste Ansatz besteht jedoch aus zahlreichen Komponenten, was die Implementierung und Bereitstellung komplex macht, während der zweite Ansatz Annotationen auf Zeichen-Ebene erfordert, die kostspielig sind. In diesem Artikel greifen wir die Klassifizierungs-Perspektive erneut auf, bei der die Erkennung von Szenentexten als ein Bildklassifizierungsproblem modelliert wird. Die Klassifizierungs-Perspektive verfügt über eine einfache Arbeitsweise und benötigt lediglich Annotationen auf Wort-Ebene. Wir revitalisieren diese Perspektive durch die Entwicklung eines Szenentexterkennungsmodells namens CSTR (Classification Perspective for Scene Text Recognition), das die Leistungsfähigkeit von Methoden aus anderen Perspektiven erreicht. Das CSTR-Modell besteht aus zwei Komponenten: CPNet (Classification Perspective Network) und SPPN (Separated Convolution with Global Average Pooling Prediction Network). CSTR ist so einfach wie ein klassisches Bildklassifizierungsmodell wie ResNet \cite{he2016deep}, was die Implementierung und Bereitstellung erheblich vereinfacht. Wir belegen die Wirksamkeit der Klassifizierungs-Perspektive bei der Erkennung von Szenentexten durch umfangreiche Experimente. Darüber hinaus erreicht CSTR nahezu state-of-the-art Ergebnisse auf sechs öffentlichen Benchmarks, sowohl für regulären als auch für irregulären Text. Der Quellcode wird unter https://github.com/Media-Smart/vedastr verfügbar sein.