Pyramiden-Masken-Text-Detektor

Die Szenentexterkennung, ein wesentlicher Schritt im System zur Erkennung von Szenentexten, dient dazu, Textinstanzen in natürlichen Szenebildern automatisch zu lokalisieren. Einige kürzliche Ansätze, die von Mask R-CNN profitieren, formulieren die Aufgabe der Szenentexterkennung als ein Instanzsegmentierungsproblem und erzielen bemerkenswerte Leistungen. In dieser Arbeit stellen wir einen neuen auf Mask R-CNN basierenden Rahmen vor, den Pyramid Mask Text Detector (PMTD), um die Szenentexterkennung zu bearbeiten. Im Gegensatz zu den binären Textmasken, die durch bestehende Mask R-CNN-basierte Methoden generiert werden, führt unser PMTD eine pixelgenaue Regression unter der Anleitung einer ortsbewussten Überwachung durch, wodurch für jede Textinstanz eine informativere weiche Textmaske erzeugt wird. Was die Generierung von Textboxen betrifft, interpretiert PMTD das erhaltene 2D-Soft-Mask in den 3D-Raum und führt einen neuen Flächenclusteringalgorithmus ein, um auf Basis der 3D-Form die optimale Textbox abzuleiten. Experimente mit Standarddatensätzen zeigen, dass der vorgeschlagene PMTD konsistente und bemerkenswerte Verbesserungen bringt und deutlich über den aktuellen Stand der Technik hinausgeht. Insbesondere erreicht er ein F-Maß von 80,13 % im ICDAR 2017 MLT-Datensatz.