Command Palette
Search for a command to run...
Szene-Text-Erkennung mit überwachtem Pyramidenkontextnetzwerk
Szene-Text-Erkennung mit überwachtem Pyramidenkontextnetzwerk
Enze Xie extsuperscript1,3,*, Yuhang Zang extsuperscript2,3,*, Shuai Shao extsuperscript3, Gang Yu extsuperscript3, Cong Yao extsuperscript3, Guangyao Li extsuperscript1 extsuperscript†
Zusammenfassung
Methode zur Texterkennung in Szenen, die auf tiefem Lernen basieren, haben in den letzten Jahren bemerkenswerte Ergebnisse erzielt. Aufgrund der hohen Vielfalt und Komplexität natürlicher Szenen können jedoch bisherige Methoden zur Texterkennung, wenn sie auf in realen Umgebungen aufgenommenen Bildern angewendet werden, immer noch eine beträchtliche Anzahl von Fehlalarmen produzieren. Um dieses Problem anzugehen, inspiriert von Mask R-CNN, schlagen wir in dieser Arbeit ein effektives Modell für die Texterkennung in Szenen vor, das auf Feature Pyramid Network (FPN) und Instanzsegmentierung basiert. Wir schlagen ein überwachtes Pyramidenkontextnetzwerk (SPCNET) vor, um Textbereiche präzise zu lokalisieren und Fehlalarme zu unterdrücken. Dank der Führung durch semantische Informationen und der Nutzung des FPN erzielt das SPCNET eine signifikant verbesserte Leistung mit nur marginal zusätzlichen Berechnungen. Experimente mit Standarddatensätzen zeigen, dass unser SPCNET deutlich bessere Ergebnisse als die aktuellen besten Methoden liefert. Insbesondere erreicht es einen F-Wert von 92,1 % bei ICDAR2013, 87,2 % bei ICDAR2015, 74,1 % bei ICDAR2017 MLT und 82,9 % bei Total-Text.