HyperAIHyperAI

Command Palette

Search for a command to run...

Mask R-CNN mit Pyramiden-Aufmerksamkeitsnetzwerk für die Erkennung von Szenentext

Zhida Huang Zhuoyao Zhong Lei Sun Qiang Huo

Zusammenfassung

In dieser Arbeit stellen wir einen neuen Ansatz zur Texterkennung vor, der auf Mask R-CNN basiert und in der Lage ist, mehrorientierten und gekrümmten Text aus natürlichen Szenenbildern auf einheitliche Weise zu erkennen. Um die Fähigkeit von Mask R-CNN, Merkmale für Texterkennungsaufgaben darzustellen, zu verbessern, schlagen wir vor, das Pyramid Attention Network (PAN) als neues Backbone-Netzwerk von Mask R-CNN zu verwenden. Experimente zeigen, dass PAN Fehlalarme, die durch textähnliche Hintergründe verursacht werden, effektiver unterdrücken kann. Unser vorgeschlagener Ansatz hat bei den Benchmark-Aufgaben zur Erkennung von mehrorientiertem (ICDAR-2015, ICDAR-2017 MLT) und gekrümmtem (SCUT-CTW1500) Text durch die Verwendung von Einzelmaßstäben und einem einzelnen Modell überzeugende Leistungen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp