HyperAIHyperAI
vor 2 Monaten

Robuste Szene-Text-Erkennung mit automatischer Rektifizierung

Baoguang Shi; Xinggang Wang; Pengyuan Lyu; Cong Yao; Xiang Bai
Robuste Szene-Text-Erkennung mit automatischer Rektifizierung
Abstract

Die Erkennung von Text in natürlichen Bildern ist eine herausfordernde Aufgabe mit vielen ungelösten Problemen. Im Gegensatz zu Texten in Dokumenten weisen Wörter in natürlichen Bildern häufig unregelmäßige Formen auf, die durch Perspektivverzerrungen, gekrümmte Zeichenanordnungen usw. verursacht werden. Wir schlagen RARE (Robust text recognizer with Automatic REctification) vor, ein Erkennungsmodell, das robust gegenüber unregelmäßigem Text ist. RARE ist ein speziell entwickeltes tiefes neuronales Netzwerk, das aus einem Spatial Transformer Network (STN) und einem Sequence Recognition Network (SRN) besteht. Bei der Testphase wird zunächst ein Bild durch eine vorhergesagte Thin-Plate-Spline (TPS)-Transformation korrigiert, um es für den nachfolgenden SRN lesbarer zu machen, der den Text durch einen sequentiellen Erkennungsansatz identifiziert. Wir zeigen, dass das Modell verschiedene Arten von unregelmäßigem Text erkennen kann, darunter perspektivischen Text und gekrümmten Text. RARE kann end-to-end trainiert werden und erfordert nur Bilder und zugehörige Textlabels, was es einfach macht, das Modell in praktischen Systemen zu trainieren und einzusetzen. Die erreichten Ergebnisse auf mehreren Benchmarks belegen eindrucksvoll die Effektivität des vorgeschlagenen Modells.

Robuste Szene-Text-Erkennung mit automatischer Rektifizierung | Neueste Forschungsarbeiten | HyperAI