HyperAIHyperAI
vor 16 Tagen

SEE: Towards Semi-Supervised End-to-End Scene Text Recognition

{Christian Bartz, Haojin Yang, Christoph Meinel}
SEE: Towards Semi-Supervised End-to-End Scene Text Recognition
Abstract

Die Erkennung und Erkennung von Text in natürlichen Szenenbildern ist eine herausfordernde, jedoch noch nicht vollständig gelöste Aufgabe. In den letzten Jahren wurden mehrere neue Systeme vorgestellt, die zumindest eine der beiden Teilaufgaben – Textdetektion oder Texterkennung – angehen. In diesem Paper präsentieren wir SEE, einen Schritt hin zu semi-supervisierten neuronalen Netzwerken für die Textdetektion und -erkennung in Szenen, die end-to-end optimiert werden können. Im Gegensatz zu den meisten bestehenden Ansätzen, die aus mehreren tiefen neuronalen Netzen und mehreren Vorverarbeitungsschritten bestehen, schlagen wir vor, ein einziges tiefes neuronales Netzwerk zu verwenden, das auf semi-supervisierte Weise lernt, Text in natürlichen Bildern zu detektieren und zu erkennen. SEE ist ein Netzwerk, das eine räumliche Transformationsnetzwerk (spatial transformer network) und ein Texterkennungsnetzwerk integriert und gemeinsam lernt: Das räumliche Transformationsnetzwerk lernt, Textregionen in einem Bild zu erkennen, während das Texterkennungsnetzwerk die identifizierten Textregionen analysiert und deren Textinhalte erkennt. Wir stellen die Grundidee unseres neuen Ansatzes vor und zeigen dessen Machbarkeit durch eine Reihe von Experimenten auf Standard-Benchmark-Datensätzen, bei denen wir wettbewerbsfähige Ergebnisse erzielen.