HyperAIHyperAI
vor 11 Tagen

Faltungs-Charakter-Netzwerke

Linjie Xing, Zhi Tian, Weilin Huang, Matthew R. Scott
Faltungs-Charakter-Netzwerke
Abstract

In jüngster Zeit wurden Fortschritte bei der Entwicklung eines einheitlichen Rahmens für die gemeinsame Erkennung und Erkennung von Text in natürlichen Bildern erzielt. Allerdings basierten bestehende gemeinsame Modelle hauptsächlich auf zweistufigen Architekturen, die ROI-Pooling verwenden, was sich negativ auf die Leistung bei der Erkennungsaufgabe auswirken kann. In dieser Arbeit stellen wir convolutionale Charakter-Netzwerke, kurz CharNet, vor – ein einstufiges Modell, das beide Aufgaben in einem einzigen Durchlauf gleichzeitig verarbeiten kann. CharNet gibt direkt Bounding-Boxes von Wörtern und Zeichen sowie die entsprechenden Zeichenlabels aus. Durch die Verwendung von Zeichen als grundlegende Elemente gelingt es uns, die zentrale Schwierigkeit bestehender Ansätze zu überwinden, die versuchten, die Texterkennung gemeinsam mit einem RNN-basierten Erkennungsast zu optimieren. Darüber hinaus entwickeln wir einen iterativen Ansatz zur Zeichenerkennung, der es ermöglicht, die von synthetischen Daten gelernte Fähigkeit der Zeichenerkennung auf reale Bilder zu übertragen. Diese technischen Verbesserungen führen zu einem einfachen, kompakten, aber leistungsfähigen einstufigen Modell, das zuverlässig auch bei mehrfach orientierten und gekrümmten Texten funktioniert. Wir evaluieren CharNet an drei etablierten Benchmarks, wo es konsistent die derzeit besten Ansätze [25, 24] mit deutlichem Abstand schlägt – beispielsweise bei der end-to-end-Texterkennung auf ICDAR 2015 eine Steigerung von 65,33 % auf 71,08 % (mit generischem Lexikon) und auf Total-Text von 54,0 % auf 69,23 %. Der Quellcode ist unter https://github.com/MalongTech/research-charnet verfügbar.

Faltungs-Charakter-Netzwerke | Neueste Forschungsarbeiten | HyperAI