TextFuseNet: Szenentexterkennung mit reichhaltiger gefilterter Featurefusion

Die Erkennung von Texten beliebiger Form in natürlichen Szenen stellt eine äußerst herausfordernde Aufgabe dar. Im Gegensatz zu bestehenden Ansätzen zur Texterkennung, die Texte ausschließlich auf der Grundlage begrenzter Merkmalsrepräsentationen wahrnehmen, schlagen wir einen neuen Ansatz namens TextFuseNet vor, der reichhaltigere, fusionierte Merkmale für die Texterkennung nutzt. Konkret schlagen wir vor, Texte auf drei Ebenen der Merkmalsrepräsentation wahrzunehmen, nämlich auf der Ebene einzelner Zeichen, auf der Wortebene und auf der globalen Ebene, und führen anschließend eine neuartige Technik zur Fusion von Textrepräsentationen ein, um eine robuste Erkennung von Texten beliebiger Form zu ermöglichen. Die mehrstufige Merkmalsrepräsentation kann Texte präzise beschreiben, indem sie sie in einzelne Zeichen zerlegt, während gleichzeitig ihre allgemeine Semantik erhalten bleibt. TextFuseNet sammelt und kombiniert anschließend die Merkmale aus verschiedenen Ebenen mittels einer mehrpfadigen Fusionsarchitektur, die unterschiedliche Repräsentationen effektiv ausrichten und fusionieren kann. In der Praxis kann unser vorgeschlagener Ansatz eine ausführlichere Beschreibung von Texten beliebiger Form lernen, Falschpositivmeldungen unterdrücken und genauere Erkennungsergebnisse liefern. Unser vorgeschlagener Rahmen kann zudem mit schwacher Aufsicht trainiert werden, was besonders nützlich ist für Datensätze, die keine Annotationen auf Zeichenebene aufweisen. Experimente an mehreren Datensätzen zeigen, dass TextFuseNet eine führende Leistung erzielt. Insbesondere erreichen wir eine F-Maß-Genauigkeit von 94,3 % auf ICDAR2013, 92,1 % auf ICDAR2015, 87,1 % auf Total-Text und 86,6 % auf CTW-1500.