HyperAIHyperAI
vor 2 Monaten

Mask R-CNN mit Pyramiden-Aufmerksamkeitsnetzwerk für die Erkennung von Szenentext

Huang, Zhida ; Zhong, Zhuoyao ; Sun, Lei ; Huo, Qiang
Mask R-CNN mit Pyramiden-Aufmerksamkeitsnetzwerk für die Erkennung von Szenentext
Abstract

In dieser Arbeit stellen wir einen neuen Ansatz zur Texterkennung vor, der auf Mask R-CNN basiert und in der Lage ist, mehrorientierten und gekrümmten Text aus natürlichen Szenenbildern auf einheitliche Weise zu erkennen. Um die Fähigkeit von Mask R-CNN, Merkmale für Texterkennungsaufgaben darzustellen, zu verbessern, schlagen wir vor, das Pyramid Attention Network (PAN) als neues Backbone-Netzwerk von Mask R-CNN zu verwenden. Experimente zeigen, dass PAN Fehlalarme, die durch textähnliche Hintergründe verursacht werden, effektiver unterdrücken kann. Unser vorgeschlagener Ansatz hat bei den Benchmark-Aufgaben zur Erkennung von mehrorientiertem (ICDAR-2015, ICDAR-2017 MLT) und gekrümmtem (SCUT-CTW1500) Text durch die Verwendung von Einzelmaßstäben und einem einzelnen Modell überzeugende Leistungen erzielt.