HyperAIHyperAI
vor 15 Tagen

PGNet: Echtzeit-Text-Spotting beliebiger Form mit Point Gathering Network

Pengfei Wang, Chengquan Zhang, Fei Qi, Shanshan Liu, Xiaoqiang Zhang, Pengyuan Lyu, Junyu Han, Jingtuo Liu, Errui Ding, Guangming Shi
PGNet: Echtzeit-Text-Spotting beliebiger Form mit Point Gathering Network
Abstract

Die Erkennung beliebig geformter Texte hat in jüngster Zeit zunehmend Forschungsinteresse gefunden. Allerdings basieren bestehende Text-Spotter überwiegend auf zweistufigen Architekturen oder zeichenbasierten Ansätzen, die entweder mit der Nicht-Maximum-Underdrückung (NMS), Region-of-Interest-(RoI)-Operationen oder zeichenlevelbezogenen Annotationen behaftet sind. Um diese Probleme zu lösen, stellen wir in diesem Artikel ein neuartiges, vollständig konvolutionales Point Gathering Network (PGNet) vor, das in Echtzeit beliebig geformten Text erkennt. Das PGNet ist ein Single-Shot-Text-Spotter, bei dem die pixelgenaue Klassifikationskarte für Zeichen mittels einer neu vorgeschlagenen PG-CTC-Loss-Funktion gelernt wird, wodurch zeichenlevelbezogene Annotationen entfallen. Mit einem PG-CTC-Decoder werden hochwertige Klassifikationsvektoren für Zeichen aus dem zweidimensionalen Raum gesammelt und direkt in Textsymbole decodiert – ohne dass NMS- oder RoI-Operationen erforderlich sind, was hohe Effizienz gewährleistet. Zudem wird ein Graph-Refinement-Modul (GRM) eingeführt, das die Beziehungen zwischen jedem Zeichen und seinen Nachbarn berücksichtigt, um die grobe Erkennung zu optimieren und die End-to-End-Leistung zu verbessern. Experimente belegen, dass die vorgeschlagene Methode eine konkurrenzfähige Genauigkeit erreicht und gleichzeitig die Laufzeit erheblich steigert. Insbesondere erzielt das Verfahren auf dem Total-Text-Datensatz eine Geschwindigkeit von 46,7 FPS und übertrifft damit die bisherigen Spotter deutlich.

PGNet: Echtzeit-Text-Spotting beliebiger Form mit Point Gathering Network | Neueste Forschungsarbeiten | HyperAI