HyperAIHyperAI

Command Palette

Search for a command to run...

Neubewertung der Klassifizierungsperspektive bei der Szenentexterkennung

Hongxiang Cai Jun Sun Yichao Xiong

Zusammenfassung

Die gängigen Ansätze zur Erkennung von Szenentexten basieren entweder auf einer sequenz-zu-Sequenz- (seq2seq) oder einer Segmentierungsarchitektur. Der erste Ansatz besteht jedoch aus zahlreichen Komponenten, was die Implementierung und Bereitstellung komplex macht, während der zweite Ansatz Annotationen auf Zeichen-Ebene erfordert, die kostspielig sind. In diesem Artikel greifen wir die Klassifizierungs-Perspektive erneut auf, bei der die Erkennung von Szenentexten als ein Bildklassifizierungsproblem modelliert wird. Die Klassifizierungs-Perspektive verfügt über eine einfache Arbeitsweise und benötigt lediglich Annotationen auf Wort-Ebene. Wir revitalisieren diese Perspektive durch die Entwicklung eines Szenentexterkennungsmodells namens CSTR (Classification Perspective for Scene Text Recognition), das die Leistungsfähigkeit von Methoden aus anderen Perspektiven erreicht. Das CSTR-Modell besteht aus zwei Komponenten: CPNet (Classification Perspective Network) und SPPN (Separated Convolution with Global Average Pooling Prediction Network). CSTR ist so einfach wie ein klassisches Bildklassifizierungsmodell wie ResNet \cite{he2016deep}, was die Implementierung und Bereitstellung erheblich vereinfacht. Wir belegen die Wirksamkeit der Klassifizierungs-Perspektive bei der Erkennung von Szenentexten durch umfangreiche Experimente. Darüber hinaus erreicht CSTR nahezu state-of-the-art Ergebnisse auf sechs öffentlichen Benchmarks, sowohl für regulären als auch für irregulären Text. Der Quellcode wird unter https://github.com/Media-Smart/vedastr verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Neubewertung der Klassifizierungsperspektive bei der Szenentexterkennung | Paper | HyperAI