HyperAIHyperAI

Command Palette

Search for a command to run...

DPText-DETR: Bessere Szenentexterkennung mit dynamischen Punkten in Transformer

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Bo Du Dacheng Tao

Zusammenfassung

Kürzlich sind Transformer-basierte Methoden, die Polygonpunkte oder Kontrollpunkte von Bezier-Kurven zur Lokalisierung von Texten vorhersagen, im Bereich der Szene-Text-Detektion zunehmend populär. Allerdings könnten diese Methoden, die auf dem Detection-Transformer-Framework basieren, aufgrund einer groben Modellierung der Positionsabfragen eine suboptimale Trainierbarkeit und Leistung erzielen. Zudem impliziert die in früheren Arbeiten verwendete Punkt-Label-Form die Leserichtung menschlicher Beobachter, was nach unseren Beobachtungen die Detektionsrobustheit beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir ein kompaktes Dynamic Point Text DEtection TRansformer-Netzwerk vor, das als DPText-DETR bezeichnet wird. Genauer gesagt nutzt DPText-DETR explizite Punktkoordinaten direkt zur Generierung von Positionsabfragen und aktualisiert diese dynamisch in einer schrittweisen Weise. Außerdem stellen wir ein verbessertes faktorisiertes Selbst-Attention-Modul vor, um die räumliche induktive Bias der nicht-lokalen Selbst-Attention in Transformer zu stärken, indem es den Punktabfragen innerhalb jeder Instanz eine zirkuläre Formführung bietet. Darüber hinaus entwerfen wir eine einfache, aber effektive Position-Label-Form, um die negativen Auswirkungen der vorherigen Form zu minimieren. Um den Einfluss verschiedener Label-Formen auf die Detektionsrobustheit in realen Szenarien weiter zu evaluieren, haben wir eine Inverse-Text-Testmenge mit 500 manuell beschrifteten Bildern erstellt. Umfangreiche Experimente belegen die hohe Trainierbarkeit, Robustheit und state-of-the-art-Leistung unseres Ansatzes auf etablierten Benchmarks. Der Quellcode sowie die Inverse-Text-Testmenge sind unter https://github.com/ymy-k/DPText-DETR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp