Command Palette
Search for a command to run...
Erkennung von Kurventexten in der Wildnis: Neues Datensatz und neue Lösung
Erkennung von Kurventexten in der Wildnis: Neues Datensatz und neue Lösung
Yuliang Liu Lianwen Jin Shuaitao Zhang Sheng Zhang
Zusammenfassung
In den letzten Jahren wurde bei der Erkennung von Szenentext große Fortschritte erzielt. Die Detektionsmethoden entwickeln sich von achsenparallelen Rechtecken über rotierte Rechtecke hin zu Vierecken. Allerdings enthalten aktuelle Datensätze nur sehr wenig gekrümmten Text, der in Szenenbildern – beispielsweise auf Schildern oder Produktbezeichnungen – häufig zu finden ist. Um die Aufmerksamkeit für die Erkennung von gekrümmtem Text in natürlichen Umgebungen zu steigern, stellen wir in diesem Artikel ein neues Datenset für gekrümmten Text namens CTW1500 vor, das über 10.000 Textannotationen in 1.500 Bildern umfasst (1.000 für das Training und 500 für die Testphase). Auf Basis dieses Datensets schlagen wir erstmals einen auf Polygonen basierenden Detektor für gekrümmten Text (CTD) vor, der gekrümmten Text direkt detektieren kann, ohne auf empirische Kombinationen angewiesen zu sein. Zudem integrieren wir nahtlos die rekurrente transversale und longitudinale Offset-Verbindung (TLOC), sodass das vorgeschlagene Verfahren end-to-end trainierbar ist und die inhärenten Beziehungen zwischen Positionsverschiebungen automatisch lernen kann. Dadurch kann der CTD Kontextinformationen besser nutzen, anstatt die Punkte unabhängig voneinander vorherzusagen, was zu glatteren und genauerer Detektionen führt. Außerdem stellen wir zwei einfache, aber effektive Nachbearbeitungsmethoden vor: die Nicht-Polygon-Unterdrückung (NPS) und die polygonale Nicht-Maximum-Unterdrückung (PNMS), die die Detektionsgenauigkeit weiter verbessern. Darüber hinaus ist das vorgeschlagene Verfahren universell gestaltet und kann problemlos mit rechteckigen oder viereckigen Umrisse trainiert werden, ohne zusätzlichen Aufwand. Experimentelle Ergebnisse auf dem CTW1500-Datenset zeigen, dass unsere Methode bereits mit einem leichten Backbone die state-of-the-art-Methoden mit großem Abstand schlägt. Auch bei der Evaluierung ausschließlich auf den Kurven- oder Nicht-Kurven-Teilmengen erzielt CTD + TLOC weiterhin die besten Ergebnisse. Der Quellcode ist unter https://github.com/Yuliang-Liu/Curve-Text-Detector verfügbar.