HyperAIHyperAI

Command Palette

Search for a command to run...

TextField: Ein tiefes Richtungsfeld für die Detektion von unregelmäßigen Szenentexten lernen

Yongchao Xu; Yukang Wang; Wei Zhou; Yongpan Wang; Zhibo Yang; Xiang Bai

Zusammenfassung

Die Erkennung von Szene-Text ist ein wichtiger Schritt im System zur Lesung von Szene-Text. Die Hauptausforderungen liegen in der erheblichen Variation von Größen und Seitenverhältnissen sowie in beliebigen Orientierungen und Formen. Angeregt durch die jüngsten Fortschritte im Bereich des Deep Learnings wurden beeindruckende Leistungen bei der Erkennung von Text in verschiedenen Orientierungen erzielt. Dennoch sinkt die Leistung bei der Erkennung von gekrümmtem Text aufgrund begrenzter Textrepräsentationen (z.B. horizontaler Begrenzungsrahmen, gedrehter Rechtecke oder Vierecke) dramatisch. Die Erkennung von gekrümmtem Text, der tatsächlich sehr häufig in natürlichen Szenen vorkommt, ist daher von großem Interesse. In dieser Arbeit stellen wir einen neuen Texterkanner namens TextField vor, der für die Erkennung unregelmäßigen Szene-Texts entwickelt wurde. Insbesondere lernen wir ein Richtungsfeld, das von jedem Textpunkt weg zum nächsten Textrand zeigt. Dieses Richtungsfeld wird durch ein Bild zweidimensionaler Vektoren repräsentiert und mittels eines vollständig konvolutionellen neuronalen Netzes gelernt. Es kodiert sowohl eine binäre Textmaske als auch Richtungsinformationen, die verwendet werden, um benachbarte Textinstanzen zu trennen – eine Aufgabe, die für klassische segmentationsbasierte Ansätze herausfordernd ist. Basierend auf dem gelernten Richtungsfeld wenden wir eine einfache aber effektive morophologische Nachbearbeitung an, um die endgültige Erkennung zu erreichen. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene TextField auf zwei Datensätzen mit gekrümmtem Text (Total-Text und CTW1500) deutlich bessere Leistungen als die bislang besten Methoden erzielt (um 28 % und 8 %), und auch sehr wettbewerbsfähige Leistungen auf Datensätzen mit mehrfach orientiertem Text (ICDAR 2015 und MSRA-TD500) erzielt. Zudem ist TextField robust in Bezug auf die Generalisierung auf unbekannte Datensätze. Der Code ist unter https://github.com/YukangWang/TextField verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp