AON: Auf dem Weg zur Erkennung beliebig orientierter Texte

Die Erkennung von Text in natürlichen Bildern ist ein aktuelles Forschungsthema in der Computer Vision aufgrund seiner vielfältigen Anwendungen. Trotz der jahrzehntelangen Forschung im Bereich der optischen Zeichenerkennung (OCR) bleibt die Erkennung von Texten aus natürlichen Bildern eine herausfordernde Aufgabe. Dies liegt daran, dass Szene-Texte oft in unregelmäßigen (z.B. gekrümmten, willkürlich orientierten oder stark verzerrten) Anordnungen vorkommen, die bisher in der Literatur nicht zufriedenstellend behandelt wurden. Bestehende Methoden zur Texterkennung arbeiten hauptsächlich mit regulären (horizontal und frontal) Texten und können nicht einfach auf unregelmäßige Texte verallgemeinert werden. In dieser Arbeit entwickeln wir das Netzwerk für beliebige Orientierungen (AON), um die tiefen Merkmale von unregelmäßigen Texten direkt zu erfassen. Diese Merkmale werden in einem aufmerksamkeitsbasierten Decoder kombiniert, um eine Zeichenfolge zu generieren. Das gesamte Netzwerk kann durch den Einsatz von Bildern und wortbasierten Annotationen end-to-end trainiert werden. Ausführliche Experimente auf verschiedenen Benchmarks, einschließlich den Datensätzen CUTE80, SVT-Perspective, IIIT5k, SVT und ICDAR, zeigen, dass die vorgeschlagene AON-basierte Methode den Stand der Technik in unregelmäßigen Datensätzen erreicht und mit den wichtigsten bestehenden Methoden in regulären Datensätzen vergleichbar ist.