HyperAIHyperAI

Command Palette

Search for a command to run...

Robuste Szene-Text-Erkennung mit automatischer Rektifizierung

Baoguang Shi Xinggang Wang Pengyuan Lyu Cong Yao Xiang Bai*

Zusammenfassung

Die Erkennung von Text in natürlichen Bildern ist eine herausfordernde Aufgabe mit vielen ungelösten Problemen. Im Gegensatz zu Texten in Dokumenten weisen Wörter in natürlichen Bildern häufig unregelmäßige Formen auf, die durch Perspektivverzerrungen, gekrümmte Zeichenanordnungen usw. verursacht werden. Wir schlagen RARE (Robust text recognizer with Automatic REctification) vor, ein Erkennungsmodell, das robust gegenüber unregelmäßigem Text ist. RARE ist ein speziell entwickeltes tiefes neuronales Netzwerk, das aus einem Spatial Transformer Network (STN) und einem Sequence Recognition Network (SRN) besteht. Bei der Testphase wird zunächst ein Bild durch eine vorhergesagte Thin-Plate-Spline (TPS)-Transformation korrigiert, um es für den nachfolgenden SRN lesbarer zu machen, der den Text durch einen sequentiellen Erkennungsansatz identifiziert. Wir zeigen, dass das Modell verschiedene Arten von unregelmäßigem Text erkennen kann, darunter perspektivischen Text und gekrümmten Text. RARE kann end-to-end trainiert werden und erfordert nur Bilder und zugehörige Textlabels, was es einfach macht, das Modell in praktischen Systemen zu trainieren und einzusetzen. Die erreichten Ergebnisse auf mehreren Benchmarks belegen eindrucksvoll die Effektivität des vorgeschlagenen Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp