vor 6 Monaten

Zusammenfassung

Derzeit ist es eine gängige Tendenz, im Bereich der Szenentexterkennung einen parallelen entkoppelten Encoder-Decoder (PDED)-Ansatz aufgrund seiner Flexibilität und Effizienz zu nutzen. Allerdings tritt aufgrund der inhomogenen Informationsdichte zwischen Queries und Keys im parallelen positionsbasierten Aufmerksamkeitsmodul (PPAM), das in solchen Architekturen eingesetzt wird (Queries: Positionsinformationen, Keys: Kontext- und Positionsinfo), bei schwierigen Beispielen – beispielsweise verschwommenen Texten, unregelmäßigen Schriften oder niedrigqualitativen Bildern – häufig eine visuelle Fehlanpassung auf. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein Dual Parallel Attention Network (DPAN) vor, bei dem ein neu entwickeltes paralleles Kontext-Aufmerksamkeitsmodul (PCAM) mit dem ursprünglichen PPAM kaskadiert wird, um mithilfe sprachlicher Kontextinformationen die Informationsinkonsistenz zwischen Queries und Keys auszugleichen. Konkret nutzen wir in PCAM die visuellen Merkmale aus dem PPAM als Eingabe und stellen ein bidirektionales Sprachmodell vor, um diese Merkmale durch sprachliche Kontextinformationen zu erweitern und somit neue Queries zu generieren. Auf diese Weise wird die Informationskonsistenz zwischen Queries und Keys im PCAM gewährleistet, was dazu beiträgt, präzisere visuelle Blickwinkel zu erzeugen und somit die Genauigkeit und Robustheit des gesamten PDED-Modells zu verbessern. Experimentelle Ergebnisse bestätigen die Wirksamkeit des vorgeschlagenen PCAM und unterstreichen die Notwendigkeit einer Informationskonsistenz zwischen Queries und Keys im Aufmerksamkeitsmechanismus. Auf sechs Benchmarks, sowohl für regelmäßige als auch unregelmäßige Texte, übertrifft DPAN die bestehenden führenden Methoden deutlich und erreicht neue SOTA-Leistungen. Der Quellcode ist unter https://github.com/Jackandrome/DPAN verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Junbo Guo Hongtao Xie Guoqing Jin Zilong Fu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Junbo Guo Hongtao Xie Guoqing Jin Zilong Fu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Blick zurück erneut: Dualer paralleler Aufmerksamkeitsnetzwerk für genaue und robuste Erkennung von Szenentexten

Junbo Guo Hongtao Xie Guoqing Jin Zilong Fu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Blick zurück erneut: Dualer paralleler Aufmerksamkeitsnetzwerk für genaue und robuste Erkennung von Szenentexten

Junbo Guo Hongtao Xie Guoqing Jin Zilong Fu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Blick zurück erneut: Dualer paralleler Aufmerksamkeitsnetzwerk für genaue und robuste Erkennung von Szenentexten

Junbo Guo Hongtao Xie Guoqing Jin Zilong Fu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters