HyperAIHyperAI

Command Palette

Search for a command to run...

Repräsentations- und Korrelationsverstärkter Encoder-Decoder-Framework für die Szenentexterkennung

Mengmeng Cui Wei Wang Jinjin Zhang Liang Wang

Zusammenfassung

Der auf Aufmerksamkeit basierende Encoder-Decoder-Framework wird weit verbreitet bei der Erkennung von Szenentexten eingesetzt. Dennoch besteht bei den aktuellen State-of-the-Art-(SOTA)-Methoden noch Verbesserungsbedarf hinsichtlich der effizienten Nutzung lokaler visueller und globaler Kontextinformationen aus dem Eingabebild sowie der Robustheit der Korrelation zwischen dem Szenenverarbeitungsmodul (Encoder) und dem Textverarbeitungsmodul (Decoder). In diesem Artikel stellen wir einen Representation- and Correlation-Enhanced Encoder-Decoder-Framework (RCEED) vor, um diese Defizite anzugehen und die Leistungsgrenze zu überwinden. Im Encoder-Modul werden lokale visuelle Merkmale, globale Kontextmerkmale und Positionsinformationen ausgerichtet und fusioniert, um eine kompakte, kleinformatige Merkmalskarte zu generieren. Im Decoder-Modul werden zwei Ansätze eingesetzt, um die Korrelation zwischen dem Szenen- und Textmerkmalsraum zu verstärken: (1) Die Initialisierung des Decoders erfolgt anhand des globalen Merkmals und des globalen Blickvektors, die aus dem Encoder extrahiert werden; (2) Der durch die Multi-Head General Attention erzeugte reichhaltige Blickvektor unterstützt die RNN-Iteration und die Zeichenvorhersage in jedem Zeitpunkt. Zudem haben wir eine Layernorm-Dropout-LSTM-Zelle entworfen, um die Generalisierungsfähigkeit des Modells gegenüber variablen Texten zu verbessern. Umfangreiche Experimente auf Standardbenchmarks belegen die überlegene Leistung von RCEED bei der Erkennung von Szenentexten, insbesondere bei unregelmäßigen Texten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Repräsentations- und Korrelationsverstärkter Encoder-Decoder-Framework für die Szenentexterkennung | Paper | HyperAI