HyperAIHyperAI
vor 2 Monaten

Erkennung von Kurventext in der Wildnis: Neue Datensätze und neue Lösungen

Yuliang, Liu ; Lianwen, Jin ; Shuaitao, Zhang ; Sheng, Zhang
Erkennung von Kurventext in der Wildnis: Neue Datensätze und neue Lösungen
Abstract

In den letzten Jahren wurde bei der Erkennung von Szene-Texten erheblicher Fortschritt erzielt. Die Erkennungsverfahren entwickeln sich von achsenparallelen Rechtecken zu gedrehten Rechtecken und weiter zu Vierecken. Allerdings enthalten aktuelle Datensätze sehr wenig gekrümmten Text, der in Szenebildern wie Schildern, Produktnamen usw. häufig vorkommt. Um die Aufmerksamkeit auf die Erkennung von gekrümmtem Text im Freien zu lenken, erstellen wir in dieser Arbeit einen Datensatz für gekrümmten Text namens CTW1500, der über 10.000 Textanotations in 1.500 Bildern umfasst (1.000 für das Training und 500 für das Testen). Basierend auf diesem Datensatz schlagen wir eine neuartige polygonbasierte Kurventexterkennungsmethode (CTD) vor, die gekrümmte Texte direkt erkennen kann, ohne empirische Kombinationen anzuwenden. Zudem ermöglicht die nahtlose Integration der rekurrenten quer- und längsversetzten Verbindungen (TLOC) die end-to-end Trainierbarkeit des vorgeschlagenen Ansatzes, um die inhärenten Verbindungen zwischen den Positionsoffsets zu lernen. Dies ermöglicht es dem CTD, Kontextinformationen zu berücksichtigen anstatt Punkte unabhängig voneinander vorherzusagen, was zu glatteren und genauereren Erkennungsergebnissen führt. Wir schlagen außerdem zwei einfache aber effektive Post-Processing-Methoden vor: Non-Polygon Suppress (NPS) und Polygonal Non-Maximum Suppression (PNMS), um die Erkennungsgenauigkeit weiter zu verbessern. Darüber hinaus ist der in dieser Arbeit vorgeschlagene Ansatz universell gestaltet und kann auch mit rechteckigen oder vierseitigen Begrenzungsboxen trainiert werden, ohne zusätzliche Anstrengungen zu unternehmen. Experimentelle Ergebnisse auf CTW-1500 zeigen, dass unsere Methode mit nur einem leichten Backbone deutlich bessere Leistungen als state-of-the-art Methoden erzielen kann. Bei der Auswertung nur im gekrümmten oder nicht-gekrümmten Subset erreicht CTD + TLOC immer noch die besten Ergebnisse. Der Quellcode ist unter https://github.com/Yuliang-Liu/Curve-Text-Detector verfügbar.

Erkennung von Kurventext in der Wildnis: Neue Datensätze und neue Lösungen | Neueste Forschungsarbeiten | HyperAI