vor 6 Monaten

Zusammenfassung

End-to-end Text Spotting zielt darauf ab, die Erkennung von Szenentext und die Texterkennung in einem einheitlichen Rahmen zu integrieren. Die Behandlung der Beziehung zwischen den beiden Teilaufgaben spielt eine entscheidende Rolle bei der Gestaltung effektiver Spotter. Obwohl Transformer-basierte Methoden die heuristische Nachverarbeitung eliminieren, leiden sie weiterhin unter dem Synergieproblem zwischen den Teilaufgaben und einer geringen Trainingseffizienz. In diesem Artikel stellen wir DeepSolo vor, eine einfache, auf DETR ähnliche Baseline, bei der ein einzelner Decoder mit expliziten Punkten gleichzeitig für die Textdetektion und -erkennung zuständig ist. Technisch repräsentieren wir für jede Textinstanz die Zeichenfolge als geordnete Punkte und modellieren diese mit lernbaren expliziten Punktabfragen. Nach Durchlauf durch einen einzigen Decoder enthalten die Punktabfragen bereits die erforderlichen textuellen Semantiken und Positionen und können anschließend parallel über sehr einfache Vorhersageköpfe gleichzeitig in die Mittellinie, die Grenzen, das Schrifttyp und die Zuverlässigkeit des Textes decodiert werden. Zusätzlich führen wir ein Text-Übereinstimmungskriterium ein, um präzisere Überwachungssignale bereitzustellen und somit eine effizientere Trainingsdurchführung zu ermöglichen. Quantitative Experimente auf öffentlichen Benchmarks zeigen, dass DeepSolo die bisherigen state-of-the-art-Methoden übertrifft und eine bessere Trainingseffizienz erreicht. Darüber hinaus ist DeepSolo auch mit Zeilenannotationen kompatibel, die gegenüber Polygonannotationen deutlich geringere Annotierungskosten verursachen. Der Quellcode ist unter https://github.com/ViTAE-Transformer/DeepSolo verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DeepSolo: Lassen Sie den Transformer-Decoder mit expliziten Punkten allein für Text Spotting arbeiten

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSolo: Lassen Sie den Transformer-Decoder mit expliziten Punkten allein für Text Spotting arbeiten

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSolo: Lassen Sie den Transformer-Decoder mit expliziten Punkten allein für Text Spotting arbeiten

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters