Command Palette
Search for a command to run...
Repräsentations- und Korrelationsverstärkter Encoder-Decoder-Framework für die Szenentexterkennung
Repräsentations- und Korrelationsverstärkter Encoder-Decoder-Framework für die Szenentexterkennung
Mengmeng Cui Wei Wang Jinjin Zhang Liang Wang
Zusammenfassung
Der auf Aufmerksamkeit basierende Encoder-Decoder-Framework wird weit verbreitet bei der Erkennung von Szenentexten eingesetzt. Dennoch besteht bei den aktuellen State-of-the-Art-(SOTA)-Methoden noch Verbesserungsbedarf hinsichtlich der effizienten Nutzung lokaler visueller und globaler Kontextinformationen aus dem Eingabebild sowie der Robustheit der Korrelation zwischen dem Szenenverarbeitungsmodul (Encoder) und dem Textverarbeitungsmodul (Decoder). In diesem Artikel stellen wir einen Representation- and Correlation-Enhanced Encoder-Decoder-Framework (RCEED) vor, um diese Defizite anzugehen und die Leistungsgrenze zu überwinden. Im Encoder-Modul werden lokale visuelle Merkmale, globale Kontextmerkmale und Positionsinformationen ausgerichtet und fusioniert, um eine kompakte, kleinformatige Merkmalskarte zu generieren. Im Decoder-Modul werden zwei Ansätze eingesetzt, um die Korrelation zwischen dem Szenen- und Textmerkmalsraum zu verstärken: (1) Die Initialisierung des Decoders erfolgt anhand des globalen Merkmals und des globalen Blickvektors, die aus dem Encoder extrahiert werden; (2) Der durch die Multi-Head General Attention erzeugte reichhaltige Blickvektor unterstützt die RNN-Iteration und die Zeichenvorhersage in jedem Zeitpunkt. Zudem haben wir eine Layernorm-Dropout-LSTM-Zelle entworfen, um die Generalisierungsfähigkeit des Modells gegenüber variablen Texten zu verbessern. Umfangreiche Experimente auf Standardbenchmarks belegen die überlegene Leistung von RCEED bei der Erkennung von Szenentexten, insbesondere bei unregelmäßigen Texten.