Einstufiger Textdetektor mit regionaler Aufmerksamkeit

Wir präsentieren einen neuen Texterkennungsdetektor, der in einem natürlichen Bild direkt Wort-Level-Bounding-Boxen ausgibt. Wir schlagen ein Aufmerksamkeitsmechanismus vor, der Textbereiche durch eine automatisch gelernte Aufmerksamkeitskarte grob identifiziert. Dies unterdrückt den Hintergrundstörungen in den Faltungsmerkmalen erheblich, was entscheidend für die genaue Inferenz von Wörtern ist, insbesondere bei extrem kleinen Größen. Das Ergebnis ist ein einzelnes Modell, das im Wesentlichen nach dem Prinzip von grob zu fein arbeitet. Es weicht ab von jüngeren FCN-basierten Textdetektoren, die mehrere FCN-Modelle kaskadenförmig verketten, um eine genaue Vorhersage zu erreichen. Darüber hinaus entwickeln wir ein hierarchisches Inception-Modul, das effizient multi-skalierte Inception-Merkmale aggregiert. Dies verbessert lokale Details und kodiert auch starke Kontextinformationen, wodurch der Detektor zuverlässig mit ein-skalierten Bildern auf multi-skaliertem und multi-orientiertem Text arbeiten kann. Unser Textdetektor erreicht einen F-Wert von 77% auf dem ICDAR 2015 Benchmark und übertrifft die bislang besten Ergebnisse in [18, 28]. Eine Demonstration ist unter folgender URL verfügbar: http://sstd.whuang.org/.