DPText-DETR: Bessere Szenentexterkennung mit dynamischen Punkten in Transformer

Kürzlich sind Transformer-basierte Methoden, die Polygonpunkte oder Kontrollpunkte von Bezier-Kurven zur Lokalisierung von Texten vorhersagen, im Bereich der Szene-Text-Detektion zunehmend populär. Allerdings könnten diese Methoden, die auf dem Detection-Transformer-Framework basieren, aufgrund einer groben Modellierung der Positionsabfragen eine suboptimale Trainierbarkeit und Leistung erzielen. Zudem impliziert die in früheren Arbeiten verwendete Punkt-Label-Form die Leserichtung menschlicher Beobachter, was nach unseren Beobachtungen die Detektionsrobustheit beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir ein kompaktes Dynamic Point Text DEtection TRansformer-Netzwerk vor, das als DPText-DETR bezeichnet wird. Genauer gesagt nutzt DPText-DETR explizite Punktkoordinaten direkt zur Generierung von Positionsabfragen und aktualisiert diese dynamisch in einer schrittweisen Weise. Außerdem stellen wir ein verbessertes faktorisiertes Selbst-Attention-Modul vor, um die räumliche induktive Bias der nicht-lokalen Selbst-Attention in Transformer zu stärken, indem es den Punktabfragen innerhalb jeder Instanz eine zirkuläre Formführung bietet. Darüber hinaus entwerfen wir eine einfache, aber effektive Position-Label-Form, um die negativen Auswirkungen der vorherigen Form zu minimieren. Um den Einfluss verschiedener Label-Formen auf die Detektionsrobustheit in realen Szenarien weiter zu evaluieren, haben wir eine Inverse-Text-Testmenge mit 500 manuell beschrifteten Bildern erstellt. Umfangreiche Experimente belegen die hohe Trainierbarkeit, Robustheit und state-of-the-art-Leistung unseres Ansatzes auf etablierten Benchmarks. Der Quellcode sowie die Inverse-Text-Testmenge sind unter https://github.com/ymy-k/DPText-DETR verfügbar.