HyperAIHyperAI

Command Palette

Search for a command to run...

TextDragon: Ein end-to-end-Framework für Textspotting beliebiger Form

Cheng-Lin Liu Xu-Yao Zhang Fei Yin Wenhao He Wei Feng

Zusammenfassung

Die meisten bestehenden Text-Spotting-Methoden konzentrieren sich entweder auf horizontale bzw. orientierte Texte oder führen die Erkennung beliebig geformter Texte mit Annotationen auf Zeichen-Ebene durch. In diesem Paper stellen wir einen neuartigen Text-Spotting-Framework vor, der Texte beliebiger Form end-to-end detektiert und erkennt, wobei lediglich Annotationen auf Wort- oder Zeilenebene für das Training verwendet werden. Angelehnt an den Namen TextSnake, der lediglich ein Detektionsmodell ist, bezeichnen wir den vorgeschlagenen Text-Spotting-Framework als TextDragon. In TextDragon wird ein Text-Detektor entworfen, der die Form von Texten mittels einer Folge von Vierecken beschreibt und somit beliebig geformte Texte effektiv verarbeiten kann. Um beliebig geformte Textregionen aus Feature-Maps zu extrahieren, führen wir einen neuen differenzierbaren Operator namens RoISlide ein, der entscheidend dafür ist, die Verbindung zwischen der Erkennung beliebig geformter Texte und deren Erkennung herzustellen. Auf Basis der durch RoISlide extrahierten Merkmale wird ein CNN- und CTC-basierter Text-Erkennungsmodul vorgestellt, wodurch der Framework von der Notwendigkeit zur Markierung der Position einzelner Zeichen befreit wird. Die vorgeschlagene Methode erreicht state-of-the-art Ergebnisse auf zwei Benchmark-Datenbanken für gekrümmte Texte, CTW1500 und Total-Text, sowie konkurrenzfähige Ergebnisse auf dem ICDAR 2015-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TextDragon: Ein end-to-end-Framework für Textspotting beliebiger Form | Paper | HyperAI