HyperAIHyperAI

Command Palette

Search for a command to run...

Blick zurück erneut: Dualer paralleler Aufmerksamkeitsnetzwerk für genaue und robuste Erkennung von Szenentexten

Junbo Guo Hongtao Xie Guoqing Jin Zilong Fu

Zusammenfassung

Derzeit ist es eine gängige Tendenz, im Bereich der Szenentexterkennung einen parallelen entkoppelten Encoder-Decoder (PDED)-Ansatz aufgrund seiner Flexibilität und Effizienz zu nutzen. Allerdings tritt aufgrund der inhomogenen Informationsdichte zwischen Queries und Keys im parallelen positionsbasierten Aufmerksamkeitsmodul (PPAM), das in solchen Architekturen eingesetzt wird (Queries: Positionsinformationen, Keys: Kontext- und Positionsinfo), bei schwierigen Beispielen – beispielsweise verschwommenen Texten, unregelmäßigen Schriften oder niedrigqualitativen Bildern – häufig eine visuelle Fehlanpassung auf. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein Dual Parallel Attention Network (DPAN) vor, bei dem ein neu entwickeltes paralleles Kontext-Aufmerksamkeitsmodul (PCAM) mit dem ursprünglichen PPAM kaskadiert wird, um mithilfe sprachlicher Kontextinformationen die Informationsinkonsistenz zwischen Queries und Keys auszugleichen. Konkret nutzen wir in PCAM die visuellen Merkmale aus dem PPAM als Eingabe und stellen ein bidirektionales Sprachmodell vor, um diese Merkmale durch sprachliche Kontextinformationen zu erweitern und somit neue Queries zu generieren. Auf diese Weise wird die Informationskonsistenz zwischen Queries und Keys im PCAM gewährleistet, was dazu beiträgt, präzisere visuelle Blickwinkel zu erzeugen und somit die Genauigkeit und Robustheit des gesamten PDED-Modells zu verbessern. Experimentelle Ergebnisse bestätigen die Wirksamkeit des vorgeschlagenen PCAM und unterstreichen die Notwendigkeit einer Informationskonsistenz zwischen Queries und Keys im Aufmerksamkeitsmechanismus. Auf sechs Benchmarks, sowohl für regelmäßige als auch unregelmäßige Texte, übertrifft DPAN die bestehenden führenden Methoden deutlich und erreicht neue SOTA-Leistungen. Der Quellcode ist unter https://github.com/Jackandrome/DPAN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp