vor 8 Tagen

DeepSolo++: Lassen Sie den Transformer-Decoder mit expliziten Punkten allein für die mehrsprachige Texterkennung agieren

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao

Abstract

End-to-end Text Spotting zielt darauf ab, die Erkennung von Szenentext und die Texterkennung in einem einheitlichen Rahmen zu integrieren. Die Behandlung der Beziehung zwischen den beiden Teilaufgaben spielt eine entscheidende Rolle bei der Entwicklung effektiver Spotter. Obwohl Transformer-basierte Ansätze die heuristische Nachverarbeitung eliminieren, leiden sie weiterhin unter dem Synergieproblem zwischen den Teilaufgaben sowie unter einer geringen Trainingseffizienz. Zudem werden in bisherigen Ansätzen die Möglichkeiten der Mehrsprachentexterkennung ungenügend erschlossen, was eine zusätzliche Aufgabe der Schriftartidentifikation erfordert. In diesem Artikel stellen wir DeepSolo++ vor, eine einfache, auf DETR inspirierte Baseline, bei der ein einzelner Decoder explizite Punkte gleichzeitig für die Texterkennung, Texterkennung und Schriftartidentifikation nutzt. Technisch werden für jede Textinstanz die Zeichenfolgen als geordnete Punkte repräsentiert und mittels lernbarer, expliziter Punktabfragen modelliert. Nach Durchlauf des einzelnen Decoders enthalten die Punktabfragen die erforderlichen Textsemantiken und Positionen und können anschließend über sehr einfache, parallele Vorhersageköpfe unabhängig voneinander in Zentralebene, Randlinien, Schriftart und Zuverlässigkeit umgewandelt werden. Darüber hinaus zeigen wir die überraschend gute Erweiterbarkeit unserer Methode hinsichtlich der Zeichenklasse, der Sprachart und der Aufgabenstellung. Einerseits erzielt unsere Methode nicht nur gute Ergebnisse bei englischen Szenen, sondern beherrscht auch die Transkription komplexer Schriftstrukturen und von Tausend-Klassen-Zeichensätzen, wie beispielsweise Chinesisch. Andererseits erreicht DeepSolo++ im Vergleich zu früheren Ansätzen eine bessere Leistung bei der zusätzlich eingeführten Schriftartidentifikation mit einem vereinfachten Trainingspipeline. Zudem sind unsere Modelle auch mit Zeilenannotationen kompatibel, was im Vergleich zu Polygonannotationen erheblich geringere Annotationskosten verursacht. Der Quellcode ist unter \url{https://github.com/ViTAE-Transformer/DeepSolo} verfügbar.