HyperAIHyperAI
vor 2 Monaten

Ein Mehrfachobjekt-Rektifizierungs-Aufmerksamkeitsnetzwerk für die Erkennung von Szene-Text

Canjie Luo; Lianwen Jin; Zenghui Sun
Ein Mehrfachobjekt-Rektifizierungs-Aufmerksamkeitsnetzwerk für die Erkennung von Szene-Text
Abstract

Irreguläre Texte werden weit verbreitet verwendet. Ihre Erkennung ist jedoch aufgrund der vielfältigen Formen und verzerrten Muster erheblich schwierig. In dieser Arbeit schlagen wir daher ein Multi-Objekt-Rektifizierungs-Aufmerksamkeitsnetzwerk (MORAN) für die allgemeine Szene-Text-Erkennung vor. Das MORAN besteht aus einem Multi-Objekt-Rektifizierungs-Netzwerk und einem aufmerksamkeitsbasierten sequenziellen Erkennungsnetzwerk. Das Multi-Objekt-Rektifizierungs-Netzwerk ist darauf ausgelegt, Bilder zu rektifizieren, die irregulären Text enthalten. Es verringert die Schwierigkeit der Erkennung und ermöglicht es dem aufmerksamkeitsbasierten sequenziellen Erkennungsnetzwerk, irregulären Text leichter zu lesen. Es wird in einer schwach überwachten Weise trainiert, sodass nur Bilder und entsprechende Textlabels erforderlich sind. Das aufmerksamkeitsbasierte sequenzielle Erkennungsnetzwerk konzentriert sich auf Zielzeichen und gibt die Vorhersagen sequenziell aus. Darüber hinaus wurde eine fraktionale Auswahlmethode für den aufmerksamkeitsbasierten Decoder im Trainingsphasen vorgeschlagen, um die Sensibilität des aufmerksamkeitsbasierten sequenziellen Erkennungsnetzwerks zu verbessern. Mit dem Rektifizierungsmechanismus kann das MORAN sowohl regulären als auch irregulären Szenentext lesen. Umfangreiche Experimente wurden an verschiedenen Benchmarks durchgeführt, die zeigen, dass das MORAN den aktuellen Stand der Technik erreicht. Der Quellcode ist verfügbar.

Ein Mehrfachobjekt-Rektifizierungs-Aufmerksamkeitsnetzwerk für die Erkennung von Szene-Text | Neueste Forschungsarbeiten | HyperAI