HyperAIHyperAI
vor 2 Monaten

FOTS: Schnelles Erkennen von orientiertem Text mit einem vereinheitlichten Netzwerk

Xuebo Liu; Ding Liang; Shi Yan; Dagui Chen; Yu Qiao; Junjie Yan
FOTS: Schnelles Erkennen von orientiertem Text mit einem vereinheitlichten Netzwerk
Abstract

Das zufällige Erkennen von Szene-Text wird als eine der schwierigsten und wertvollsten Herausforderungen in der Dokumentenanalyse-Gemeinschaft angesehen. Die meisten existierenden Methoden behandeln die Texterkennung und -identifikation als separate Aufgaben. In dieser Arbeit schlagen wir ein vereintes, von Ende zu Ende trainierbares Netzwerk für schnelles orientiertes Textspotting (Fast Oriented Text Spotting, FOTS) vor, das gleichzeitige Detektion und Erkennung ermöglicht und dabei Berechnungen und visuelle Informationen zwischen den beiden ergänzenden Aufgaben teilt. Insbesondere wird RoIRotate eingeführt, um konvolutionsförmige Merkmale zwischen Detektion und Erkennung zu teilen. Dank der Strategie des Teilen von Konvolutionen hat unser FOTS nur geringe zusätzliche Rechenkosten im Vergleich zum Baseline-Netzwerk für Textdetektion, und die gemeinsame Trainingsmethode lernt allgemeinere Merkmale, die unsere Methode besser performen lassen als diese zweistufigen Ansätze. Experimente mit den Datensätzen ICDAR 2015, ICDAR 2017 MLT und ICDAR 2013 zeigen, dass die vorgeschlagene Methode erheblich über den aktuellen Stand der Technik hinausgeht. Dies ermöglicht es uns außerdem, das erste Echtzeit-orientierte Textspotting-System zu entwickeln, das bei einem Durchsatz von 22,6 Bildern pro Sekunde alle bisherigen Spitzenleistungen um mehr als 5 % übertreffen kann, insbesondere bei der Textspotting-Aufgabe des ICDAR 2015-Datensatzes.

FOTS: Schnelles Erkennen von orientiertem Text mit einem vereinheitlichten Netzwerk | Neueste Forschungsarbeiten | HyperAI