HyperAIHyperAI
vor 11 Tagen

Entkoppeltes Aufmerksamkeitsnetzwerk für die Texterkennung

Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Canjie Luo, Xiaoxue Chen, Yaqiang Wu, Qianying Wang, Mingxiang Cai
Entkoppeltes Aufmerksamkeitsnetzwerk für die Texterkennung
Abstract

Die Texterkennung hat aufgrund ihrer vielfältigen Anwendungen erhebliches Forschungsinteresse geweckt. Moderne Ansätze zur Texterkennung basieren auf Aufmerksamkeitsmechanismen. Allerdings leiden die meisten dieser Methoden aufgrund ihrer rekursiven Alignierungsoperation erheblich unter dem sogenannten Alignierungsproblem, da die Alignierung auf den vorherigen Dekodierungsergebnissen beruht. Um dieses Problem zu beheben, schlagen wir ein entkoppeltes Aufmerksamkeitsnetzwerk (Decoupled Attention Network, DAN) vor, das die Alignierungsoperation von den historischen Dekodierungsergebnissen entkoppelt. DAN ist ein effektiver, flexibler und robuster end-to-end-Texterkennungssystem, das aus drei Komponenten besteht: 1) einem Feature-Encoder, der visuelle Merkmale aus dem Eingabebild extrahiert; 2) einem konvolutionellen Alignierungsmodul, das die Alignierung auf Basis der Merkmale des Encoders durchführt; und 3) einem entkoppelten Text-Dekoder, der die endgültige Vorhersage durch gemeinsame Nutzung der Merkmalskarte und der Aufmerksamkeitskarten erzeugt. Experimentelle Ergebnisse zeigen, dass DAN auf mehreren Texterkennungsaufgaben, einschließlich der Offline-Erkennung handschriftlicher Texte sowie der Erkennung regulärer und irregulärer Szenentexte, die derzeit beste Leistung erzielt.

Entkoppeltes Aufmerksamkeitsnetzwerk für die Texterkennung | Neueste Forschungsarbeiten | HyperAI