TextDragon: Ein end-to-end-Framework für Textspotting beliebiger Form

Die meisten bestehenden Text-Spotting-Methoden konzentrieren sich entweder auf horizontale bzw. orientierte Texte oder führen die Erkennung beliebig geformter Texte mit Annotationen auf Zeichen-Ebene durch. In diesem Paper stellen wir einen neuartigen Text-Spotting-Framework vor, der Texte beliebiger Form end-to-end detektiert und erkennt, wobei lediglich Annotationen auf Wort- oder Zeilenebene für das Training verwendet werden. Angelehnt an den Namen TextSnake, der lediglich ein Detektionsmodell ist, bezeichnen wir den vorgeschlagenen Text-Spotting-Framework als TextDragon. In TextDragon wird ein Text-Detektor entworfen, der die Form von Texten mittels einer Folge von Vierecken beschreibt und somit beliebig geformte Texte effektiv verarbeiten kann. Um beliebig geformte Textregionen aus Feature-Maps zu extrahieren, führen wir einen neuen differenzierbaren Operator namens RoISlide ein, der entscheidend dafür ist, die Verbindung zwischen der Erkennung beliebig geformter Texte und deren Erkennung herzustellen. Auf Basis der durch RoISlide extrahierten Merkmale wird ein CNN- und CTC-basierter Text-Erkennungsmodul vorgestellt, wodurch der Framework von der Notwendigkeit zur Markierung der Position einzelner Zeichen befreit wird. Die vorgeschlagene Methode erreicht state-of-the-art Ergebnisse auf zwei Benchmark-Datenbanken für gekrümmte Texte, CTW1500 und Total-Text, sowie konkurrenzfähige Ergebnisse auf dem ICDAR 2015-Datensatz.