HyperAIHyperAI

Command Palette

Search for a command to run...

Mask TextSpotter v3: Segmentation Proposal Network für robuste Szenentexterkennung

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

Zusammenfassung

Kürzlich entwickelte end-to-end trainierbare Methoden für die Erkennung von Szenentext, die Detektion und Erkennung integrieren, haben erhebliche Fortschritte gezeigt. Allerdings verwenden die meisten derzeitigen Spotter für beliebig geformten Szenentext Region Proposal Networks (RPN), um Vorschläge zu generieren. Die RPN beruht stark auf manuell entworfenen Anchors, und ihre Vorschläge werden durch achsenparallele Rechtecke repräsentiert. Letzteres führt zu Schwierigkeiten bei der Behandlung von Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen, während ersteres häufig mehrere benachbarte Textinstanzen in einer einzigen Vorschlag zusammenfasst, insbesondere bei dicht angeordneten, orientierten Texten. Um diese Probleme zu lösen, stellen wir Mask TextSpotter v3 vor – einen end-to-end trainierbaren Szenentext-Spotter, der anstelle einer RPN eine Segmentation Proposal Network (SPN) verwendet. Unsere SPN ist anchor-free und ermöglicht eine präzise Darstellung beliebig geformter Vorschläge. Dadurch übertrifft sie die RPN bei der Erkennung von Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen. Darüber hinaus ermöglichen die präzisen Vorschläge der SPN die Nutzung maskierter RoI-Features zur Entkopplung benachbarter Textinstanzen. Folglich kann unser Mask TextSpotter v3 Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen effektiv verarbeiten, ohne dass die Erkennungsgenauigkeit durch benachbarte Texte oder Hintergrundrauschen beeinträchtigt wird. Konkret erreichen wir eine Verbesserung gegenüber den aktuellen State-of-the-Art-Methoden um 21,9 Prozent auf dem Rotated ICDAR 2013-Datensatz (Rotationsrobustheit), um 5,9 Prozent auf dem Total-Text-Datensatz (Formrobustheit) und erzielen eine state-of-the-art-Leistung auf dem MSRA-TD500-Datensatz (Aspektverhältnisrobustheit). Der Quellcode ist unter folgender URL verfügbar: https://github.com/MhLiao/MaskTextSpotterV3


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mask TextSpotter v3: Segmentation Proposal Network für robuste Szenentexterkennung | Paper | HyperAI