HyperAIHyperAI
vor 11 Tagen

Blick zurück erneut: Dualer paralleler Aufmerksamkeitsnetzwerk für genaue und robuste Erkennung von Szenentexten

{Junbo Guo, Hongtao Xie, Guoqing Jin, Zilong Fu}
Abstract

Derzeit ist es eine gängige Tendenz, im Bereich der Szenentexterkennung einen parallelen entkoppelten Encoder-Decoder (PDED)-Ansatz aufgrund seiner Flexibilität und Effizienz zu nutzen. Allerdings tritt aufgrund der inhomogenen Informationsdichte zwischen Queries und Keys im parallelen positionsbasierten Aufmerksamkeitsmodul (PPAM), das in solchen Architekturen eingesetzt wird (Queries: Positionsinformationen, Keys: Kontext- und Positionsinfo), bei schwierigen Beispielen – beispielsweise verschwommenen Texten, unregelmäßigen Schriften oder niedrigqualitativen Bildern – häufig eine visuelle Fehlanpassung auf. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein Dual Parallel Attention Network (DPAN) vor, bei dem ein neu entwickeltes paralleles Kontext-Aufmerksamkeitsmodul (PCAM) mit dem ursprünglichen PPAM kaskadiert wird, um mithilfe sprachlicher Kontextinformationen die Informationsinkonsistenz zwischen Queries und Keys auszugleichen. Konkret nutzen wir in PCAM die visuellen Merkmale aus dem PPAM als Eingabe und stellen ein bidirektionales Sprachmodell vor, um diese Merkmale durch sprachliche Kontextinformationen zu erweitern und somit neue Queries zu generieren. Auf diese Weise wird die Informationskonsistenz zwischen Queries und Keys im PCAM gewährleistet, was dazu beiträgt, präzisere visuelle Blickwinkel zu erzeugen und somit die Genauigkeit und Robustheit des gesamten PDED-Modells zu verbessern. Experimentelle Ergebnisse bestätigen die Wirksamkeit des vorgeschlagenen PCAM und unterstreichen die Notwendigkeit einer Informationskonsistenz zwischen Queries und Keys im Aufmerksamkeitsmechanismus. Auf sechs Benchmarks, sowohl für regelmäßige als auch unregelmäßige Texte, übertrifft DPAN die bestehenden führenden Methoden deutlich und erreicht neue SOTA-Leistungen. Der Quellcode ist unter https://github.com/Jackandrome/DPAN verfügbar.

Blick zurück erneut: Dualer paralleler Aufmerksamkeitsnetzwerk für genaue und robuste Erkennung von Szenentexten | Neueste Forschungsarbeiten | HyperAI