HyperAIHyperAI
vor 2 Monaten

TextField: Ein tiefes Richtungsfeld für die Detektion von unregelmäßigen Szenentexten lernen

Yongchao Xu; Yukang Wang; Wei Zhou; Yongpan Wang; Zhibo Yang; Xiang Bai
TextField: Ein tiefes Richtungsfeld für die Detektion von unregelmäßigen Szenentexten lernen
Abstract

Die Erkennung von Szene-Text ist ein wichtiger Schritt im System zur Lesung von Szene-Text. Die Hauptausforderungen liegen in der erheblichen Variation von Größen und Seitenverhältnissen sowie in beliebigen Orientierungen und Formen. Angeregt durch die jüngsten Fortschritte im Bereich des Deep Learnings wurden beeindruckende Leistungen bei der Erkennung von Text in verschiedenen Orientierungen erzielt. Dennoch sinkt die Leistung bei der Erkennung von gekrümmtem Text aufgrund begrenzter Textrepräsentationen (z.B. horizontaler Begrenzungsrahmen, gedrehter Rechtecke oder Vierecke) dramatisch. Die Erkennung von gekrümmtem Text, der tatsächlich sehr häufig in natürlichen Szenen vorkommt, ist daher von großem Interesse. In dieser Arbeit stellen wir einen neuen Texterkanner namens TextField vor, der für die Erkennung unregelmäßigen Szene-Texts entwickelt wurde. Insbesondere lernen wir ein Richtungsfeld, das von jedem Textpunkt weg zum nächsten Textrand zeigt. Dieses Richtungsfeld wird durch ein Bild zweidimensionaler Vektoren repräsentiert und mittels eines vollständig konvolutionellen neuronalen Netzes gelernt. Es kodiert sowohl eine binäre Textmaske als auch Richtungsinformationen, die verwendet werden, um benachbarte Textinstanzen zu trennen – eine Aufgabe, die für klassische segmentationsbasierte Ansätze herausfordernd ist. Basierend auf dem gelernten Richtungsfeld wenden wir eine einfache aber effektive morophologische Nachbearbeitung an, um die endgültige Erkennung zu erreichen. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene TextField auf zwei Datensätzen mit gekrümmtem Text (Total-Text und CTW1500) deutlich bessere Leistungen als die bislang besten Methoden erzielt (um 28 % und 8 %), und auch sehr wettbewerbsfähige Leistungen auf Datensätzen mit mehrfach orientiertem Text (ICDAR 2015 und MSRA-TD500) erzielt. Zudem ist TextField robust in Bezug auf die Generalisierung auf unbekannte Datensätze. Der Code ist unter https://github.com/YukangWang/TextField verfügbar.

TextField: Ein tiefes Richtungsfeld für die Detektion von unregelmäßigen Szenentexten lernen | Neueste Forschungsarbeiten | HyperAI