HyperAIHyperAI
vor 8 Tagen

DeepSolo: Lassen Sie den Transformer-Decoder mit expliziten Punkten allein für Text Spotting arbeiten

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao
DeepSolo: Lassen Sie den Transformer-Decoder mit expliziten Punkten allein für Text Spotting arbeiten
Abstract

End-to-end Text Spotting zielt darauf ab, die Erkennung von Szenentext und die Texterkennung in einem einheitlichen Rahmen zu integrieren. Die Behandlung der Beziehung zwischen den beiden Teilaufgaben spielt eine entscheidende Rolle bei der Gestaltung effektiver Spotter. Obwohl Transformer-basierte Methoden die heuristische Nachverarbeitung eliminieren, leiden sie weiterhin unter dem Synergieproblem zwischen den Teilaufgaben und einer geringen Trainingseffizienz. In diesem Artikel stellen wir DeepSolo vor, eine einfache, auf DETR ähnliche Baseline, bei der ein einzelner Decoder mit expliziten Punkten gleichzeitig für die Textdetektion und -erkennung zuständig ist. Technisch repräsentieren wir für jede Textinstanz die Zeichenfolge als geordnete Punkte und modellieren diese mit lernbaren expliziten Punktabfragen. Nach Durchlauf durch einen einzigen Decoder enthalten die Punktabfragen bereits die erforderlichen textuellen Semantiken und Positionen und können anschließend parallel über sehr einfache Vorhersageköpfe gleichzeitig in die Mittellinie, die Grenzen, das Schrifttyp und die Zuverlässigkeit des Textes decodiert werden. Zusätzlich führen wir ein Text-Übereinstimmungskriterium ein, um präzisere Überwachungssignale bereitzustellen und somit eine effizientere Trainingsdurchführung zu ermöglichen. Quantitative Experimente auf öffentlichen Benchmarks zeigen, dass DeepSolo die bisherigen state-of-the-art-Methoden übertrifft und eine bessere Trainingseffizienz erreicht. Darüber hinaus ist DeepSolo auch mit Zeilenannotationen kompatibel, die gegenüber Polygonannotationen deutlich geringere Annotierungskosten verursachen. Der Quellcode ist unter https://github.com/ViTAE-Transformer/DeepSolo verfügbar.

DeepSolo: Lassen Sie den Transformer-Decoder mit expliziten Punkten allein für Text Spotting arbeiten | Neueste Forschungsarbeiten | HyperAI