HyperAIHyperAI

Command Palette

Search for a command to run...

Pyramiden-Masken-Text-Detektor

Jingchao Liu; Xuebo Liu; Jie Sheng; Ding Liang; Xin Li; Qingjie Liu

Zusammenfassung

Die Szenentexterkennung, ein wesentlicher Schritt im System zur Erkennung von Szenentexten, dient dazu, Textinstanzen in natürlichen Szenebildern automatisch zu lokalisieren. Einige kürzliche Ansätze, die von Mask R-CNN profitieren, formulieren die Aufgabe der Szenentexterkennung als ein Instanzsegmentierungsproblem und erzielen bemerkenswerte Leistungen. In dieser Arbeit stellen wir einen neuen auf Mask R-CNN basierenden Rahmen vor, den Pyramid Mask Text Detector (PMTD), um die Szenentexterkennung zu bearbeiten. Im Gegensatz zu den binären Textmasken, die durch bestehende Mask R-CNN-basierte Methoden generiert werden, führt unser PMTD eine pixelgenaue Regression unter der Anleitung einer ortsbewussten Überwachung durch, wodurch für jede Textinstanz eine informativere weiche Textmaske erzeugt wird. Was die Generierung von Textboxen betrifft, interpretiert PMTD das erhaltene 2D-Soft-Mask in den 3D-Raum und führt einen neuen Flächenclusteringalgorithmus ein, um auf Basis der 3D-Form die optimale Textbox abzuleiten. Experimente mit Standarddatensätzen zeigen, dass der vorgeschlagene PMTD konsistente und bemerkenswerte Verbesserungen bringt und deutlich über den aktuellen Stand der Technik hinausgeht. Insbesondere erreicht er ein F-Maß von 80,13 % im ICDAR 2017 MLT-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Pyramiden-Masken-Text-Detektor | Paper | HyperAI