HyperAIHyperAI
vor 8 Tagen

DEER: Detektionsunabhängiger End-zu-End-Erkenner für die Szenentexterkennung

Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek
DEER: Detektionsunabhängiger End-zu-End-Erkenner für die Szenentexterkennung
Abstract

Neuere end-to-end-Szenentext-Spotter haben erhebliche Fortschritte bei der Erkennung beliebig geformter Textinstanzen erzielt. Häufig verwendete Ansätze für Text-Spotting nutzen Region-of-Interest-Pooling oder Segmentierungsmasken, um die Merkmale auf einzelne Textinstanzen zu beschränken. Dies erschwert jedoch die korrekte Dekodierung von Zeichenfolgen durch den Erkennungsteil, wenn die Erkennung nicht präzise ist, beispielsweise wenn ein oder mehrere Zeichen abgeschnitten sind. Da es allein auf Basis des Detektors schwierig ist, Wortgrenzen genau zu bestimmen, schlagen wir einen neuartigen, detektionsunabhängigen end-to-end-Erkennungsrahmen, DEER (Detection-agnostic End-to-End Recognizer), vor. Der vorgeschlagene Ansatz verringert die enge Abhängigkeit zwischen Detektions- und Erkennungsmodul, indem er beide durch einen einzigen Referenzpunkt pro Textinstanz verbindet, anstatt auf ermittelte Regionen zurückzugreifen. Dadurch kann der Decoder den Text erkennen, der durch den Referenzpunkt angezeigt wird, unter Verwendung von Merkmalen aus der gesamten Bildregion. Da lediglich ein einziger Punkt zur Texterkennung erforderlich ist, ermöglicht die vorgeschlagene Methode das Text-Spotting ohne den Einsatz eines beliebig geformten Detektors oder die Annotation von Umrisspolygonen. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode auf gängigen Benchmarks für reguläre und beliebig geformte Texterkennung konkurrenzfähige Leistungen erzielt. Weitere Analysen belegen die Robustheit von DEER gegenüber Detektionsfehlern. Der Quellcode und die verwendeten Datensätze werden öffentlich verfügbar gemacht.

DEER: Detektionsunabhängiger End-zu-End-Erkenner für die Szenentexterkennung | Neueste Forschungsarbeiten | HyperAI