HyperAIHyperAI
vor 16 Tagen

CDistNet: Wahrnehmung von Multi-Domain-Charakterabständen für robusteres Texterkennung

Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang
CDistNet: Wahrnehmung von Multi-Domain-Charakterabständen für robusteres Texterkennung
Abstract

Der auf Transformer basierende Encoder-Decoder-Ansatz gewinnt zunehmend an Beliebtheit bei der Erkennung von Szenentext, vor allem, weil er Erkennungshinweise aus sowohl visuellen als auch semantischen Domänen nahtlos integriert. Allerdings zeigen jüngere Studien, dass diese beiden Hinweisarten nicht stets gut registriert werden, was zu einer Fehlanpassung zwischen Merkmalen und Zeichen bei schwierigen Texten (z. B. mit seltenen Formen) führen kann. Um dieses Problem zu mildern, werden daher Einschränkungen wie die Zeichenposition eingeführt. Trotz gewisser Erfolge werden visuelle und semantische Informationen weiterhin getrennt modelliert und lediglich lose miteinander verknüpft. In diesem Artikel stellen wir ein neuartiges Modul namens Multi-Domain Character Distance Perception (MDCDP) vor, das eine visuell und semantisch verknüpfte Positionsembedding aufbaut. MDCDP nutzt die Positionsembedding, um sowohl visuelle als auch semantische Merkmale mittels des Cross-Attention-Mechanismus abzurufen. Beide Hinweisarten werden in den Positionszweig integriert und erzeugen eine kontextbewusste Embedding-Repräsentation, die sowohl Zeichenabstände und Orientierungsvarianten, als auch semantische Ähnlichkeiten zwischen Zeichen sowie Verbindungsclues zwischen den beiden Informationsdomänen präzise erfasst. Diese Aspekte werden zusammengefasst als multi-dominale Zeichenentfernung. Wir entwickeln CDistNet, das mehrere MDCDP-Module hintereinander schaltet, um eine schrittweise präzise Modellierung der Entfernung zu ermöglichen. Dadurch wird selbst bei starken Erkennungsherausforderungen eine zuverlässige Merkmal-Zeichen-Alignment erreicht. Wir evaluieren CDistNet an zehn anspruchsvollen öffentlichen Datensätzen sowie an zwei Serien erweiterter Datensätze, die wir selbst generiert haben. Die Experimente zeigen, dass CDistNet äußerst wettbewerbsfähig abschneidet: Es erreicht nicht nur Spitzenpositionen in Standardbenchmarks, sondern übertrifft auch neuere populäre Methoden deutlich auf realen und erweiterten Datensätzen mit starker Textverzerrung, schlechter sprachlicher Unterstützung und seltenen Zeichenanordnungen. Der Quellcode ist unter https://github.com/simplify23/CDistNet verfügbar.

CDistNet: Wahrnehmung von Multi-Domain-Charakterabständen für robusteres Texterkennung | Neueste Forschungsarbeiten | HyperAI