HyperAIHyperAI
vor 2 Monaten

Erkennung von mehrgerichteten Texten mit eckbasierten Regionenvorschlägen

Linjie Deng; Yanxiang Gong; Yi Lin; Jingwen Shuai; Xiaoguang Tu; Yuefei Zhang; Zheng Ma; Mei Xie
Erkennung von mehrgerichteten Texten mit eckbasierten Regionenvorschlägen
Abstract

Frühere Ansätze zur Texterkennung in Szenen basieren in der Regel auf manuell definierten Gleitfenstern. Diese Arbeit präsentiert eine intuitive, zweistufige, regionsbasierte Methode zur Erkennung von mehrorientiertem Text ohne jegliche vorherige Kenntnisse über die textuelle Form. Im ersten Stadium schätzen wir die möglichen Positionen von Textinstanzen, indem wir Ecken detektieren und verbinden, anstatt eine Reihe vorgegebener Anker zu verschieben. Die quadratischen Vorschläge sind geometrisch anpassbar, was es unserer Methode ermöglicht, mit verschiedenen Textverhältnissen und Orientierungen umzugehen. Im zweiten Stadium entwickeln wir eine neue Pooling-Schicht namens Dual-RoI-Pooling (Dual-Region-of-Interest-Pooling), die Datenverstärkung in das regionsweise Subnetz einbettet, um eine robusteren Klassifikation und Regression dieser Vorschläge zu ermöglichen. Experimentelle Ergebnisse auf öffentlichen Benchmarks bestätigen, dass die vorgeschlagene Methode vergleichbare Leistungen wie die der neuesten Methoden erzielen kann. Der Code ist öffentlich verfügbar unter https://github.com/xhzdeng/crpn.