HyperAIHyperAI

Command Palette

Search for a command to run...

Erkennung von Kurventexten in der Wildnis: Neues Datensatz und neue Lösung

Yuliang Liu Lianwen Jin Shuaitao Zhang Sheng Zhang

Zusammenfassung

In den letzten Jahren wurde bei der Erkennung von Szenentext große Fortschritte erzielt. Die Detektionsmethoden entwickeln sich von achsenparallelen Rechtecken über rotierte Rechtecke hin zu Vierecken. Allerdings enthalten aktuelle Datensätze nur sehr wenig gekrümmten Text, der in Szenenbildern – beispielsweise auf Schildern oder Produktbezeichnungen – häufig zu finden ist. Um die Aufmerksamkeit für die Erkennung von gekrümmtem Text in natürlichen Umgebungen zu steigern, stellen wir in diesem Artikel ein neues Datenset für gekrümmten Text namens CTW1500 vor, das über 10.000 Textannotationen in 1.500 Bildern umfasst (1.000 für das Training und 500 für die Testphase). Auf Basis dieses Datensets schlagen wir erstmals einen auf Polygonen basierenden Detektor für gekrümmten Text (CTD) vor, der gekrümmten Text direkt detektieren kann, ohne auf empirische Kombinationen angewiesen zu sein. Zudem integrieren wir nahtlos die rekurrente transversale und longitudinale Offset-Verbindung (TLOC), sodass das vorgeschlagene Verfahren end-to-end trainierbar ist und die inhärenten Beziehungen zwischen Positionsverschiebungen automatisch lernen kann. Dadurch kann der CTD Kontextinformationen besser nutzen, anstatt die Punkte unabhängig voneinander vorherzusagen, was zu glatteren und genauerer Detektionen führt. Außerdem stellen wir zwei einfache, aber effektive Nachbearbeitungsmethoden vor: die Nicht-Polygon-Unterdrückung (NPS) und die polygonale Nicht-Maximum-Unterdrückung (PNMS), die die Detektionsgenauigkeit weiter verbessern. Darüber hinaus ist das vorgeschlagene Verfahren universell gestaltet und kann problemlos mit rechteckigen oder viereckigen Umrisse trainiert werden, ohne zusätzlichen Aufwand. Experimentelle Ergebnisse auf dem CTW1500-Datenset zeigen, dass unsere Methode bereits mit einem leichten Backbone die state-of-the-art-Methoden mit großem Abstand schlägt. Auch bei der Evaluierung ausschließlich auf den Kurven- oder Nicht-Kurven-Teilmengen erzielt CTD + TLOC weiterhin die besten Ergebnisse. Der Quellcode ist unter https://github.com/Yuliang-Liu/Curve-Text-Detector verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp